Яка перевага імпутації над побудовою кількох моделей у регресії?


10

Цікаво, чи хтось міг би дати деяке уявлення про те, чому імпутація відсутніх даних краще, ніж просто побудова різних моделей для випадків із відсутніми даними. Особливо у випадку [узагальнених] лінійних моделей (я, можливо, бачу, що в нелінійних випадках все по-іншому)

Припустимо, у нас є основна лінійна модель:

Y=β1Х1+β2Х2+β3Х3+ϵ

Але наш набір даних містить деякі записи з відсутньою . У наборі даних передбачення, де модель буде використовуватися, також будуть випадки відсутності . Здається, два способи продовжити:X 3Х3Х3

Кілька моделей

Ми могли б розділити дані на та випадки та створити окрему модель для кожного. Якщо ми припускаємо, що тісно пов'язаний з то відсутня модель даних може мати надмірну вагу щоб отримати найкращий прогноз на два прогнози. Крім того, якщо випадки відсутніх даних дещо відрізняються (через механізм відсутності даних), то це може включати цю різницю. На нижній стороні обидві моделі вміщують лише частину даних кожна, і не «допомагають» одна одній, так що вміст може бути поганим на обмежених наборах даних.X 3 X 3 X 2 X 2Х3Х3Х3Х2Х2

Імпутація

спочатку заповнює , будуючи модель на основі і а потім випадковим чином відбираючи вибірки для підтримки шуму в імпутованих даних. Оскільки це знову дві моделі, чи не в кінцевому підсумку це буде таким самим, як метод з декількома моделями вище? Якщо вона здатна перевершити - звідки береться прибуток? Це просто те, що придатність для робиться на всьому наборі?X 1 X 2 X 1Х3Х1Х2Х1

Редагувати:

Хоча відповідь Стефана поки що пояснює, що встановлення повної моделі корпусу на імпутовані дані випереджає вміст повних даних, і, здається, очевидно, що навпаки, правда, все ще існує деяке непорозуміння щодо прогнозування відсутніх даних.

Якщо у мене є вищевказана модель, навіть ідеально підібрана, це взагалі буде жахливою моделлю прогнозування, якщо я просто поставив нуль при прогнозуванні. Уявімо, наприклад, що тоді є абсолютно марним ( ), коли присутній, але все-таки буде корисним за відсутності .X 2 β 2 = 0Х2=Х3+ηХ2β2=0X 3Х3Х3

Ключове питання, яке я не розумію, це: чи краще побудувати дві моделі: одну за допомогою та одну за допомогою , чи краще побудувати єдину (повну) модель та використовувати імпутація на наборах даних прогнозу - чи це одне і те ж?( X 1 , X 2 , X 3 )(Х1,Х2)(Х1,Х2,Х3)

Наводячи відповідь Стефана, здається, що краще побудувати повну модель справи на імпутованому навчальному наборі, і навпаки, мабуть, найкраще побудувати відсутню модель даних на повному наборі даних із відхиленими . Чи відрізняється цей другий крок від використання моделі імпутації в даних прогнозування?Х3

Відповіді:


4

Я думаю, що ключовим тут є розуміння механізму відсутності даних; або принаймні виключати деякі. Побудова окремих моделей схожа на трактування зниклих та відсутніх груп як випадкових вибірок. Якщо відсутність на X3 пов'язана з X1 або X2 або якоюсь іншою непоміченою змінною, то ваші оцінки, ймовірно, будуть упередженими у кожній моделі. Чому б не використовувати багаторазову імпутацію на наборі даних про розробку та не використовувати комбіновані коефіцієнти для множинного імпульсного набору прогнозів? Середня серед прогнозів, і ви повинні бути хорошими.


Але якщо відсутність пов'язана з X1 або X2, то, безумовно, добре мати дві окремі моделі - оскільки вони будуть включати цю інформацію. Тобто, коли в майбутньому я отримаю зниклий X3, я буду знати упереджене в правильному напрямку.
Короне

3

Я припускаю, що вам цікаво отримати неупереджені оцінки коефіцієнтів регресії. Аналіз повних випадків дає неупереджені оцінки ваших коефіцієнтів регресії за умови, що ймовірність того, що X3 відсутня, не залежить від Y. Це справедливо, навіть якщо вірогідність відсутності залежить від X1 або X2, і для будь-якого типу регресійного аналізу.

Звичайно, оцінки можуть бути неефективними, якщо частка закінчених справ невелика. У цьому випадку ви можете використовувати багаторазову імпутацію X3, заданої X2, X1 і Y, щоб збільшити точність. Докладніше див. White and Carlin (2010) Stat Med .


Ага, так чи є імпутація щодо отримання коефіцієнтів правильно? Самі коефіцієнти мене не цікавлять - я просто хочу домогтися максимальної прогнозованої сили щодо нових даних (які також можуть мати відсутність)
Korone

1
Це добре. Для досягнення максимальної прогнозної потужності ви також хочете точних та неупереджених оцінок модельних коефіцієнтів.
Стеф ван Бурен

Якщо я використовую лише цілі випадки, то я не можу використовувати цю модель для прогнозування, коли у мене відсутні дані, оскільки коефіцієнти, як правило, є невірними (наприклад, якщо між X2 та X3 є кореляція). Тому я повинен або імпулювати X3 під час прогнозування, або будувати другу модель лише у X1 та X2. Питання в тому, якщо це призводить до різних прогнозів, а що краще?
Короне

Ах, я думаю, я розумію один із ваших моментів: якщо я підходитиму до моделі прогнозування повних випадків за допомогою імпутації, то це покращить повний прогноз випадків, а також пристосує його лише до конкурентних випадків. Залишилося питання, що найкраще для неповних справ?
Короне

Припустимо, що beta_1 = beta_2 = 0 і beta_3 = 1. Використання лише X1 і X2 передбачає константу, тоді як прогнозування з використанням X3 пояснить деяку дисперсію Y, а отже, призведе до зниження залишкової помилки. Таким чином, імпутована версія дає кращі прогнози.
Стеф ван Бурен

0

Одне дослідження з Гарварду пропонує багаторазову імпутацію з п'ятьма прогнозами відсутніх даних (ось референція, http://m.circoutcome.ahajournals.org/content/3/1/98.full ). Навіть тоді я пам'ятаю коментарі, що моделі імпутації все ще не можуть створювати інтервали покриття для параметрів моделі, які не містять справжніх базових значень!

Зважаючи на це, найкраще використовувати п’ять простих наївних моделей для відсутнього значення (припускаючи, що вони не пропущені випадково в поточній дискусії), які дають хороший розподіл значень, так що інтервали покриття можуть, принаймні, містити справжні параметри .

Мій досвід теорії відбору проб полягає в тому, що багато ресурсів часто витрачається на підгрупування невідповідної сукупності, яка часом здається сильно відрізняється від групи відповідей. Як такий, я рекомендував би подібну вправу щодо регресії пропущеного значення хоча б один раз у конкретній області застосування. Взаємовідносини, не виявлені при такому дослідженні відсутніх даних, можуть мати історичну цінність у побудові кращих моделей прогнозування відсутніх даних на майбутнє.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.