Чим відрізняється цензура від усічення?


30

У книзі Статистичні моделі та методи життєвих даних написано:

Цензура: коли спостереження є неповним через якусь випадкову причину.
Укорочення: Коли неповний характер спостереження пов'язаний із систематичним процесом відбору, властивим дизайну дослідження.

Що розуміється під "систематичним процесом відбору, властивим дизайну дослідження" у визначенні усічення?

Чим відрізняється цензура від усічення?


3
Подивіться на відповідь тут .
Мастеров Димитрій Васильович

3
Цензура: "Ми десь спостерігали в цьому регіоні, але не знаємо, що це таке". Усечення: "Спостереження? Яке спостереження?"
Glen_b -Встановіть Моніку

Звідки цитуються ваші визначення?
Glen_b -Встановіть Моніку

1
@Glen_b Я змінив своє запитання.
ABC

Відповіді:


57

Визначення різняться, і обидва терміни іноді використовуються взаємозамінно. Я спробую пояснити найбільш поширені вживання за допомогою наступного набору даних:

11,25245

Цензура : деякі спостереження будуть цензуровані, це означає, що ми знаємо лише, що вони знаходяться внизу (або вище). Наприклад, це може статися, якщо ми виміряємо концентрацію хімічної речовини у зразку води. Якщо концентрація занадто низька, лабораторне обладнання не може виявити наявність хімічного речовини. Це все ще може бути присутнім, тому ми знаємо лише, що концентрація знаходиться нижче межі виявлення в лабораторії.

Якщо межа виявлення становить 1,5, так що спостереження, що опускаються нижче цієї межі, цензуруються, наш приклад набору даних стане: тобто ми не знаємо фактичні значення перших двох спостережень, але лише те, що вони менші за 1,5.

<1.5<1.5245,

Укорочення : процес генерування даних такий, що можна лише спостерігати результати вище (або нижче) межі усічення. Наприклад, це може статися, якщо вимірювання проводити за допомогою детектора, який активується лише в тому випадку, якщо сигнали, які він виявляє, перевищують певну межу. Може бути багато слабких вхідних сигналів, але ми ніколи не можемо сказати, використовуючи цей детектор.

245

Отже, щодо цього використання термінів "цензура" вводить в оману, якщо ми думаємо в терміні нетехнічного вживання слова? тобто в цьому статистичному сенсі це означає щось на кшталт "розпливчасте" або "лише відомо, що потрапляє в деякий діапазон", а не в щось на зразок нетехнічного сенсу - тобто придушується або вилучається, як коли книга вилучається з магазинів, оскільки її змісту.
Марс

3
На конкретному прикладі укорочення, страхові компанії з автомобілів ніколи не чують про нещасні випадки, коли шкода менша, ніж відрахування, оскільки люди там не повідомляють. Це ліве укорочення; ми взагалі ніколи не бачимо даних про ці випадки. На приклад правильної цензури, коли хворий пацієнт вирішує припинити відвідування свого лікаря або переїжджає в інше місто, то все, що відомо, це те, що вони були живі в той день, коли вони пішли, але ми не знаємо, коли вони померли .
Девід Уайт

@Mars: Я погоджуюся, що це звучить назад від сучасного нетехнічного використання, де "цензура" видаляє всі сліди, а "обрізка" - це видалення деталей. Але в статистиці "Цензура" використовується в старомодному нетехнічному сенсі, коли цензор міг би видалити, але не усунути жодного сліду чогось: чорні скриньки або розмиття, розміщені над образливими частинами фотографії чи відеозапису, видає, що прикриває ненормативність. по радіо, або листи солдатів додому або до секретних документів випускаються там, де цензуровані (більш сучасний термін "відредаговані") частини затьмарені.
Уейн

Уявіть, що я вимірюю проміжок часу між двома видами подій події. Але я можу записувати подію лише протягом 1 року. Чи буде час цензурований чи урізаний?
скан

4

Так само, як перспектива з іншого поля (програмування), цензура та обрізання є двома різними операціями.

Під час роботи з делікатним набором даних, наприклад, номерами соціального страхування та номерами телефонів, я можу цензурувати його або цензуру до надання доступу:

123-12-1234 => 999-99-9999
567-56-5678 => 999-99-9999
(906) 123-4567 => (000) 000-0000

Це дозволяє решті додатків працювати як зазвичай, із подібними структурами даних, але без реального інформаційного вмісту або поширення приватної інформації.

Відрізання, навпаки, зазвичай є лише відсіканням залишилися значень після певної точки. Для роботи над додатком мені не потрібні сотні тисяч записів, можливо, мені потрібно лише ~ 50 з кожного, що робить доступ до даних набагато швидшим, а набори даних - меншими.

Аналогічний варіант усічення - це коли вставляти значення в стовпчик або тип даних обмеженої довжини або точності:

abcdefghijklmnopqrstuv => abcdef
10.23412421345 => 10.23
10.92455311 => 10

1
+1 Важливо знати, що цензура та усічення можуть мати зовсім інші значення поза статистикою!
MånsT
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.