Описово кажучи, я пропоную "вибірку даних цензурувати, якщо деякі спостереження в ній беруть або складають крайні значення вибірки, але їх справжнє значення виходить за межі спостережуваного вибірки". Але це оманливо прямо.
Отже, спочатку обговоримо, як можна зробити висновок про цензуру набору даних, що, природно, призведе нас до обговорення випадків, представлених у питанні.
Припустимо, нам подано наступний набір даних з дискретної випадкової величини , для якої єдине, що ми знаємо, це те, що вона є негативною:X
{0,1,1,2,2,2,2,2,2,2}
Чи можна сказати, що набір даних цензурується? Ну, ми маємо право думати, що це може бути, але це не обов'язково так:
1) може мати діапазон { 0 , 1 , 2 } і розподіл ймовірностей {X{0,1,2} . Якщо це дійсно так, то, здається, тут немає цензури, а лише "передбачуваний" зразок з такої випадкової величини, з обмеженою підтримкою та сильно асиметричним розподілом. {0.1,0.1,0.8}
2) Але це може бути так , що має діапазон { 0 , 1 , . . . , 9 } з рівномірним розподілом ймовірностей { 0,1 , 0,1 , . . .0 .1 } , в цьому випадку наш зразок даних, швидше за все, піддається цензурі. X{0,1,...,9}{0.1,0.1,...0.1}
Як ми можемо сказати? Ми не можемо, за винятком випадків, коли ми володіємо попередніми знаннями чи інформацією , це дозволить нам сперечатися на користь тієї чи іншої справи. Чи представляють три випадки, представлені у запитанні, попередні знання щодо цензури? Подивимось:
Випадок A) описує ситуацію, коли для деяких спостережень ми маємо лише якісну інформацію, наприклад "дуже велику", "дуже маленьку" тощо, що приводить нас до присвоєння спостереження надзвичайного значення. Зауважте, що просто невідомість фактичної реалізованої величини не виправдовує присвоєння крайнього значення. Тож ми повинні мати певну інформацію, що для цих спостережень їх значення перевищує або нижче всіх спостережуваних. У цьому випадку фактичний діапазон випадкової величини невідомий, але наша якісна інформація дозволяє нам створити цензуровану вибірку (це ще одне обговорення того, чому ми не просто відкидаємо спостереження, для яких ми не володіємо фактично реалізованим значенням ).
Випадок В) - це не випадок цензури, якщо я правильно це розумію, а скоріше випадок забрудненої вибірки: наша апріорна інформація говорить нам, що максимальне значення випадкової величини не може перевищувати (через фізичний закон чи а соціальний закон - припустимо, це дані про класи від системи класифікації, яка використовує лише значення 1 , 2 , 3 ). Але ми спостерігали також значення 4 і значення 5 . Як це може бути? Помилка в записі даних. Але в такому випадку ми точно не знаємо, що 4 і 5 повинні бути усіма 331,2,345453(насправді, дивлячись на бічну клавіатуру комп’ютера, більш імовірно, що 's - це 1 ' s, а 5 '- 2 ' s!). "Виправляючи" будь-яким способом вибірку, ми не робимо її цензурованою, оскільки випадкова величина не повинна в першу чергу знаходитись у записаному діапазоні (тому немає істинних ймовірностей, присвоєних значенням 4 та 5 ). 415245
Випадок С) стосується спільної вибірки, де ми маємо залежну змінну та предиктори. Тут ми можемо мати вибірку, де значення залежної змінної зосереджені в одній або обох крайнощах, завдяки структурі досліджуваного явища: У звичайному прикладі "відпрацьованих годин" не працюють безробітні, але вони мали б працював (добре подумайте: чи справді ця справа підпадає під описове "визначення" на початку цієї відповіді?). Тож включення їх у регресію із записаними годинами "нуль" створює зміщення. З іншого боку, максимальну кількість відпрацьованої години можна стверджувати, що можна досягти, скажімо, 16/ день, і можуть бути співробітники, які бажають працювати стільки за дану зарплату. Але законодавча база цього не дозволяє, і ми не дотримуємося таких "відпрацьованих годин". Тут ми намагаємось оцінити " передбачувану функцію пропозиції робочої сили" - і саме стосовно цієї змінної вибірка характеризується як цензурована.
Але якби ми заявили, що те, що ми хочемо зробити, це оцінити "функцію пропозиції робочої сили з огляду на явище безробіття та законодавчу базу", вибірку не піддаватимуть цензурі, оскільки вона відображатиме ефект цих двох аспектів, чого ми хочемо це робити.
Отже, ми бачимо, що характеризувати зразок даних як цензурований
а) може виходити з різних ситуацій, і
b) потребує певної обережності -
лише той факт, що його можна переплутати із випадком усічення .