Цензура часто описується порівняно із усіченням . Хороший опис двох процесів надають Gelman et al (2005, p. 235):
Обрізані дані відрізняються від цензурованих даних тим, що ніяких підрахунків спостережень за точкою усічення немає. При цензурі
значення спостережень за точкою усічення втрачаються, але їх кількість спостерігається.
Цензура чи укорочення можуть відбуватися для значень, що перевищують деякий рівень (права цензура), нижче деякого рівня (лівоцензура) або обидва.
2.02.0
Інтуїтивно зрозумілий приклад цензури полягає в тому, що ви запитуєте респондентів про їх вік, але записуєте це лише до деякої цінності, і всі віки вище цієї величини, скажімо, 60 років, записуються як "60+". Це призводить до отримання точної інформації для нецензурованих значень і відсутності інформації про цензуровані значення.
Не настільки типовий приклад цензури в реальному житті спостерігався в балах екзамену з польської матури, який привернув досить багато уваги в інтернеті . Іспит складається в кінці середньої школи, і студенти повинні здати його, щоб мати змогу подати заявку на здобуття вищої освіти. Чи можете ви здогадатися із наведеного нижче сюжету, яка мінімальна кількість балів, яку потрібно отримати студентам, щоб скласти іспит? Не дивно, що "розрив" в нормальному розподілі може бути легко "заповнений", якщо взяти відповідну частку завищених представлених балів трохи вище межі цензури.
У разі аналізу виживання
Цензура виникає тоді, коли ми маємо деяку інформацію про індивідуальний час виживання, але ми точно не знаємо час виживання
(Kleinbaum and Klein, 2005, стор. 5). Наприклад, ви лікуєте пацієнтів яким-небудь препаратом і спостерігаєте за ними до кінця дослідження, але ви не знаєте, що з ними відбувається після закінчення дослідження (чи були рецидиви чи побічні ефекти?), Єдине, що вам відомо, це те, що вони " вижили " принаймні до кінця дослідження.
Нижче ви можете знайти приклад даних, згенерованих з розподілу Weibull, змодельованого за допомогою оцінювача Kaplan – Meier. Модель синьої кривої позначки оцінюється за повним набором даних, на середньому графіку ви бачите цензуровану вибірку та модель, оцінену за цензурованими даними (червона крива), праворуч ви бачите усічений зразок та модель, оцінену за таким зразком (червона крива). Як бачимо, відсутні дані (усічення) мають істотний вплив на оцінки, але цензуру можна легко управляти за допомогою стандартних моделей аналізу виживання.
Це не означає, що ви не можете аналізувати усічені зразки, але в таких випадках вам доведеться використовувати моделі для відсутніх даних, які намагаються «відгадати» невідому інформацію.
Kleinbaum, DG та Klein, M. (2005). Аналіз виживання: текст самостійного навчання. Спрингер.
Гельман, А., Карлін, Дж. Б., Стерн, Х. С., і Рубін, Д. Б. (2005). Байєсівський аналіз даних. Chapman & Hall / CRC.