Відмінність випадкового відсутнього (MAR) від відсутнього повністю випадково (MCAR)


13

Мені це було пояснено кілька разів. Вони продовжують готувати мій мозок. Відсутня не випадкова, має сенс бути, а відсутність повністю у випадковому випадку має сенс ... це відсутність у випадковій не стільки.

Що породжує дані, які були б MAR, але не MCAR?


Чи відповідає ваша відповідь на це інше запитання? Чи є вагома причина для назви "Відсутня випадково"? та перелічені ними ресурси?
Енді Ш

3
@AndyW Щоб бути тупим, ні. Цікава дискусія про те, чому назва помилена, та стаття, яка ховається за стіною передплати.
Фоміт

Відповіді:


18

Відсутність навмання (MAR) означає, що відсутність можна пояснити змінними, про які ви маєте повну інформацію. Це не тестоване припущення, але є випадки, коли це розумно проти.

Наприклад, візьміть опитування політичної думки. Багато людей відмовляються відповідати. Якщо ви вважаєте, що причини, від яких люди відмовляються відповідати, повністю ґрунтуються на демографії, а якщо у вас є така демографічна характеристика для кожної людини, то дані є MAR. Відомо, що деякі причини, через які люди відмовляються відповідати, можуть ґрунтуватися на демографії (наприклад, люди з низьким і високим рівнем доходів мають меншу ймовірність відповіді, ніж ті, хто знаходиться в середині), але насправді немає можливості дізнатися, чи це є повне пояснення.

Отже, питання стає "чи достатньо повно?". Часто такі методи, як багаторазова імпутація, працюють краще, ніж інші методи, доки дані не дуже відсутні, не випадково.


5
Журнал статистичного програмного забезпечення (онлайн) був недавно питання про множині поставленні, і я дивився на великих трійках кілька пакетів зобов'язання для R: Amelia, miі mice. Подібність та відмінності є захоплюючими. ( Amelia's over imputeдосить цікаво.)
Wayne

1
Ось посилання на випуск JSS: jstatsoft.org/v45
gung -

12

Я не впевнений, чи правильно це, але те, як я намагався це зрозуміти, як ніби є матриця 2x2 можливостей, яка не зовсім симетрична. Щось на зразок:

Pattern  /   Data Explains Pattern

            Yes         No

Yes         MAR        MNAR

No          --         MCAR

Тобто, якщо є шаблон до відсутності змінної, і дані, які ми не маємо, пояснити це, у нас є MNAR, але якщо дані, які ми маємо (тобто інші змінні в нашому наборі даних), можуть пояснити це, у нас є MAR. Якщо немає шаблону відсутності, це MCAR.

Можливо, я тут далеко. Також це відкриває визначення поняття "Шаблон" та "Дані пояснює". Я думаю, що "Дані пояснює", як це означає, що інші змінні у вашому наборі даних пояснюють це, але я вважаю, що ваша процедура також може пояснити це (наприклад, хороший приклад в іншій темі - якщо у вас є три змінні вимірювання, які вимірюють одне і те саме Процедура полягає в тому, що якщо перші два вимірювання не погоджуються занадто сильно, ви робите третє вимірювання).

Це достатньо точно для інтуїції, резюме?


Дуже корисна візуалізація. Дякую!
skeller88

-1

Я також намагався зрозуміти різницю, тому, можливо, деякі приклади можуть допомогти.

MCAR : Зник зовсім випадково , це чудово. Це означає, що невідповідь є абсолютно випадковим. Тож ваше опитування не є упередженим.

МАР : Відсутня навмання , гірша ситуація. Уявіть, що ви просите про IQ і у вас набагато більше жінок, ніж чоловіків. На щастя для вас, IQ не пов'язаний з гендерною ознакою, тому ви можете контролювати стать (застосовувати зважування), щоб зменшити упередженість.

МНАР : Не пропущений навмання , погано. Подумайте про проведення опитування щодо рівня доходу. І знову: у вас більше жінок, ніж учасників самців. У цьому випадку це проблема, оскільки рівень доходу пов'язаний із статтю. Тому ваші результати будуть упередженими. Позбутися непросто.

Розумієте, це "трикутник" відносини між цільовою змінною (Y, наприклад доходом), допоміжною змінною (X, наприклад, віком) та поведінкою відповіді (R, група відповідей). Якщо X пов'язаний лише з R, хороший результат (MAR). Якщо існує відношення між X і R і X і Y, його погано (MNAR).

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.