Які саме цензурні дані?


14

Я читав різні описи цензурованих даних:

А) Як пояснено в цій темі, цензуруються не кількісні дані нижче або вище певного порогу. Некваліфіковані засоби означають, що вище або нижче певного порогу, але ми не знаємо точного значення. Потім дані маркуються за низьким або високим пороговим значенням у моделі регресії. Він відповідає опису в цій презентації , який я виявив дуже зрозумілим (другий слайд на першій сторінці). Іншими словами, Y обмежується або мінімальним, максимальним значенням, або обом, оскільки ми не знаємо справжнього значення поза цим діапазоном.

B) Друг сказав мені, що ми можемо застосувати цензуровану модель даних до частково невідомих спостережень Y , за умови, що у нас є хоч якась гранична інформація про невідомі результати Yi . Наприклад, ми хочемо оцінити остаточну ціну на безшумні та відкриті аукціони на основі деяких якісних критеріїв (тип товару, країна, багатство учасників торгів тощо). Хоча для відкритих аукціонів ми знаємо всі кінцеві ціни Yi , для безшумних аукціонів ми знаємо лише першу пропозицію (скажімо, 1000 доларів), але не остаточну ціну. Мені сказали, що в цьому випадку дані цензуруються зверху і слід застосовувати цензуровану регресійну модель.

C) Нарешті, є визначення, яке дається у Вікіпедії, де взагалі відсутня, але прогнози доступні. Я не впевнений, чим цей приклад відрізняється від усічених даних.Y

То які саме цензурні дані є?


6
Більш відповідна стаття у Вікіпедії знаходиться на сайті en.wikipedia.org/wiki/Censoring_%28statistics%29 . Хоча це не є вичерпним, воно, щонайменше, описує цензуру типу I і II типу і визнає інтервальну цензуру разом з лівою і правою цензурою.
whuber

Відповіді:


8

Розглянемо наступні дані про результат та коваріат x :ух

user y       x   
1    10      2 
2   (-∞,5]   3 
3   [4,+∞)   5   
4   [8,9]    7
5     .      .

Для користувача 1 ми маємо повні дані. Для всіх інших ми маємо неповні дані. Користувачі 2, 3 та 4 піддаються цензурі: результат, відповідний відомим значенням коваріату, не спостерігається або не спостерігається точно (ліво-, право- та інтервально-цензурований). Іноді це артефакт міркувань щодо конфіденційності в дизайні опитування. В інший час це трапляється з інших причин. Наприклад, ми не спостерігаємо заробітну плату нижче мінімальної заробітної плати або фактичного попиту на концертні квитки, що перевищують місткість арени.

Користувач 5 усічений: і результат, і коваріат відсутні. Зазвичай це відбувається тому, що ми збираємо дані лише про людей, які щось робили. Наприклад, ми опитуємо лише людей, які щось купили ( ), тому ми виключаємо тих, хто має y = 0, а також їх x s. Ми можемо навіть не мати рядка для цього типу користувачів у вихідних даних, хоча ми знаємо, що вони існують, тому що ми знаємо правило, яке було використано для створення нашої вибірки. Інший приклад - випадкове скорочення: ми спостерігаємо лише заробітну плату для людей, які перебувають у складі робочої сили, оскільки ми припускаємо, що пропозиція заробітної плати - це заробітна плата, коли ви працюєте. Укорочення є випадковим, оскільки залежить не від yу>0у=0xу, але за іншою змінною.

Коротше кажучи, усічення передбачає більші втрати інформації, ніж цензура (пункти A&B). Обидва ці типи «відсутність» є систематичними.

Робота з даним типом даних зазвичай передбачає чітке припущення щодо поширення помилки та змінення ймовірності врахування цього. Також можливі більш гнучкі напівпараметричні підходи. Це неявно у вашій точці B.


2
Два аспекти цієї відповіді мене бентежать. По-перше, суто відсутні значення не обов'язково відображають усічення. По-друге, спосіб цензури ("випадковий" проти "інформативний") часто такий же важливий, як і сам факт цензури, що вказує на те, що цензура є більшою, ніж просто записування даних, що оцінюються на інтервалі.
whuber

Це дуже хороший приклад. Чи означає це, що до кожного можуть застосовуватися різні "межі цензури" ? Як ми формулюємо модель в цьому випадку? Це підтвердило б заяву мого друга в B). y
Роберт Кубрик

1
Якщо ви готові припустити одномовні, звичайно розподілені помилки, ймовірність може бути записана таким чином, і ви можете використовувати MLE з певними пороговими значеннями цензури.
Мастеров Димитрій Вікторович

3
@Peter Це не (так) цензура? Укорочення відбудеться тоді, коли всіх таких людей буде виключено та взагалі не зараховано у вибірці. Див. En.wikipedia.org/wiki/Truncation_(statistics) .
whuber

1
@Peter Що ви заплутаєте в тому, що ви пишете "тоді ми знаємо, що ІМТ цієї людини перевищує 30": як ви можете звернутися до того, кого немає навіть у вашому зразку ("не підрахували")? Спостереження за формою "ІМТ> 30" є цензура, тоді як повне виключення всіх таких спостережень із вашого аналізу, навіть коли вони можуть існувати у популяції, - це усічення. В останньому випадку все, що можна сказати, - це "люди з ІМТ старше 30 років були виключені з вибірки".
whuber

9

Описово кажучи, я пропоную "вибірку даних цензурувати, якщо деякі спостереження в ній беруть або складають крайні значення вибірки, але їх справжнє значення виходить за межі спостережуваного вибірки". Але це оманливо прямо.

Отже, спочатку обговоримо, як можна зробити висновок про цензуру набору даних, що, природно, призведе нас до обговорення випадків, представлених у питанні.

Припустимо, нам подано наступний набір даних з дискретної випадкової величини , для якої єдине, що ми знаємо, це те, що вона є негативною:X

{0,1,1,2,2,2,2,2,2,2}

Чи можна сказати, що набір даних цензурується? Ну, ми маємо право думати, що це може бути, але це не обов'язково так:

1) може мати діапазон { 0 , 1 , 2 } і розподіл ймовірностей {X{0,1,2} . Якщо це дійсно так, то, здається, тут немає цензури, а лише "передбачуваний" зразок з такої випадкової величини, з обмеженою підтримкою та сильно асиметричним розподілом. {0.1,0.1,0.8}

2) Але це може бути так , що має діапазон { 0 , 1 , . . . , 9 } з рівномірним розподілом ймовірностей { 0,1 , 0,1 , . . .0 .1 } , в цьому випадку наш зразок даних, швидше за все, піддається цензурі. X{0,1,...,9}{0.1,0.1,...0.1}

Як ми можемо сказати? Ми не можемо, за винятком випадків, коли ми володіємо попередніми знаннями чи інформацією , це дозволить нам сперечатися на користь тієї чи іншої справи. Чи представляють три випадки, представлені у запитанні, попередні знання щодо цензури? Подивимось:

Випадок A) описує ситуацію, коли для деяких спостережень ми маємо лише якісну інформацію, наприклад "дуже велику", "дуже маленьку" тощо, що приводить нас до присвоєння спостереження надзвичайного значення. Зауважте, що просто невідомість фактичної реалізованої величини не виправдовує присвоєння крайнього значення. Тож ми повинні мати певну інформацію, що для цих спостережень їх значення перевищує або нижче всіх спостережуваних. У цьому випадку фактичний діапазон випадкової величини невідомий, але наша якісна інформація дозволяє нам створити цензуровану вибірку (це ще одне обговорення того, чому ми не просто відкидаємо спостереження, для яких ми не володіємо фактично реалізованим значенням ).

Випадок В) - це не випадок цензури, якщо я правильно це розумію, а скоріше випадок забрудненої вибірки: наша апріорна інформація говорить нам, що максимальне значення випадкової величини не може перевищувати (через фізичний закон чи а соціальний закон - припустимо, це дані про класи від системи класифікації, яка використовує лише значення 1 , 2 , 3 ). Але ми спостерігали також значення 4 і значення 5 . Як це може бути? Помилка в записі даних. Але в такому випадку ми точно не знаємо, що 4 і 5 повинні бути усіма 331,2,345453(насправді, дивлячись на бічну клавіатуру комп’ютера, більш імовірно, що 's - це 1 ' s, а 5 '- 2 ' s!). "Виправляючи" будь-яким способом вибірку, ми не робимо її цензурованою, оскільки випадкова величина не повинна в першу чергу знаходитись у записаному діапазоні (тому немає істинних ймовірностей, присвоєних значенням 4 та 5 ). 415245

Випадок С) стосується спільної вибірки, де ми маємо залежну змінну та предиктори. Тут ми можемо мати вибірку, де значення залежної змінної зосереджені в одній або обох крайнощах, завдяки структурі досліджуваного явища: У звичайному прикладі "відпрацьованих годин" не працюють безробітні, але вони мали б працював (добре подумайте: чи справді ця справа підпадає під описове "визначення" на початку цієї відповіді?). Тож включення їх у регресію із записаними годинами "нуль" створює зміщення. З іншого боку, максимальну кількість відпрацьованої години можна стверджувати, що можна досягти, скажімо, 16/ день, і можуть бути співробітники, які бажають працювати стільки за дану зарплату. Але законодавча база цього не дозволяє, і ми не дотримуємося таких "відпрацьованих годин". Тут ми намагаємось оцінити " передбачувану функцію пропозиції робочої сили" - і саме стосовно цієї змінної вибірка характеризується як цензурована.
Але якби ми заявили, що те, що ми хочемо зробити, це оцінити "функцію пропозиції робочої сили з огляду на явище безробіття та законодавчу базу", вибірку не піддаватимуть цензурі, оскільки вона відображатиме ефект цих двох аспектів, чого ми хочемо це робити.

Отже, ми бачимо, що характеризувати зразок даних як цензурований
а) може виходити з різних ситуацій, і
b) потребує певної обережності -
лише той факт, що його можна переплутати із випадком усічення .


6
Це здається економетричною перспективою. Зауважте, що в біомедичних дослідженнях зазвичай є тривалість (можливо, буквально виживання) як відповідь, а також - цензура пацієнтів, що не пережили події до кінця періоду спостереження. Але також мати пацієнтів, які відмовилися або втратили спостереження протягом періоду спостереження. (Можливо, вони відійшли і контакт був загублений.) Ми можемо знати, що час виживання є> останнім контактом, але може бути коротшим, ніж кінець періоду спостереження.
gung - Відновити Моніку

Справа B не для помилкових або забруднених даних. Припустимо, ми хочемо оцінити остаточну ціну поєднання тихих та відкритих аукціонів на основі деяких якісних критеріїв (тип товару, країна, багатство учасників торгів, ...). Для безшумних аукціонів ми знаємо лише першу пропозицію (скажімо, 1000 доларів), але не остаточну ціну. Мені сказали, що ми можемо використовувати дані безшумних аукціонів, використовуючи певну форму цензурованого моделювання.
Роберт Кубрик

1
@gung це, звичайно, економетричний підхід, враховуючи, хто написав відповідь!
Алекос Пападопулос

1
@RobertKunrick Те, що ви описуєте, не співпадає з випадком B. Способом описується випадок B, ми спостерігаємо діапазон значень, і тоді нам кажуть, що деякі спостережувані значення насправді неможливі. Як це відповідає прикладу аукціонів?
Алекос Пападопулос

Будь ласка, не сприймайте це як критику, @AlecosPapadopoulos. Я не думаю, що є щось неправильне. Я просто хочу зазначити, що терміни використовуються по-різному в різних областях, і це не конвенція stat / biostat.
gung - Відновіть Моніку

2

Для мене цензура означає, що ми спостерігаємо часткову інформацію про спостереження . Я маю на увазі під цим те, що замість того, щоб спостерігати Z i = z i, ми спостерігаємо Z ia i, де a i - це реалізація A i , що є деяким випадковим збільшеним простором вибірки. Можна уявити, що спочатку вибираємо розділ A i зразкового простору Z , потім генерується Z i , і повідомляємо про A iA i таким, щоZiZi=ziZiaiaiAiAiZZiAiAiZiAiI(ZiA)AAiZiAiZi

[ZiZiai]ZiZi=(Xi,Yi)Yiai={x}×YYY and say Zi is missing if ai=Z. When one says "Zi is censored", if they are following my definition, what they usually mean is "Zi is censored, but is not missing".


1

It's important to distinguish censored versus truncated as well as missing data.

Censoring applies specifically to the issue of survival analysis and time-to-event outcomes wherein the event at hand is assumed to have occurred at some time past the point at which you stopped observing that individual. An example is men-who-have-sex-with-men (MSM) and the risk of incident HIV in a prospective study who move and cease contact with study coordinators.

Truncation applies to a continuous variable that evaluates to a specific point at which the actual value is known to be either greater than or less than that point. An example is the monitoring of subjects with HIV and the development of full blown AIDS, CD4 cell counts falling below 300 are evaluated to the lower-limit-of-detection 300.

Lastly, missing data are data that have actual values that are not observed in any sense. Censored data are not missing time-to-event data nor are they truncated.


1
There's another use of "truncation": to describe a data-generating process where observations above/below cut-offs are unobtainable. A classic example involves counting the no.eggs found in the nests of a particular bird species, where the species can only be identified from the egg; empty nests could be from any species so the no. zeroes is unknown. If the no. eggs follows a Poisson distribution, the egg counts from non-empty nests follow a truncated Poisson. So truncation produces missing data according to a specific well defined mechanism.
Scortchi - Reinstate Monica

1
… Дані вашої клітини дійсно піддаються цензурі відповідно до розуміння багатьма людьми терміна, який не обмежується вимірюванням часу та події, тому що ви знаєте все про кожен предмет, за винятком того, наскільки нижче 300 його кількість клітин; Тут "усікання" (альтернативно "Винсоризація") описує метод аналізу, а саме обробку значень нижче 300 так, ніби вони рівні 300.
Скортчі - Відновлення Моніки

Чітка посилання на концепцію цензурного аналізу виживання: itl.nist.gov/div898/handbook/apr/section1/apr131.htm .
Ерік О Лебігот

-1
  1. Censored: This is a term used to indicate that the period of observation was cut off before the event of interest occurred. So ''censored data'' indicate that the period of a particular event as not or never occurred

3
Welcome to the site. If this is copied from some source, please cite the source.
gung - Reinstate Monica

3
Censoring applies to much more than time-dependent observations. For instance, chemical concentrations measurements that are below the limit of detection are censored, too.
whuber

@whuber: May I offer a friendly amendment to that observation. The chemical concentrations that fall below the limit of detection are indeed censored, but since they cannot possibly be negative, analyses should consider them as truncated at zero. My own understanding of the truncation-censoring distinction is that truncation applies to the range of parameters that are possible for the underlying distribution.
DWin

@DWin Дякую за продумане роз’яснення. Я можу погодитися лише з першим моментом. У значній більшості наборів даних, які я проаналізував, потрібно було знову виразити концентрації як логарифми - і там відмінність зникає. В інших наборах даних, де вилучено фон (наприклад, рентгенологічні вимірювання), також немає визначеної лівої кінцевої точки. Ваш другий пункт вражає мене як незвичний: я ніколи не бачив "усікання", яке використовувалося для створення підмножини сімейства розподілу.
whuber
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.