Цікаво, чи хтось міг би дати деяке уявлення про те, чому імпутація відсутніх даних краще, ніж просто побудова різних моделей для випадків із відсутніми даними. Особливо у випадку [узагальнених] лінійних моделей (я, можливо, бачу, що в нелінійних випадках все по-іншому)
Припустимо, у нас є основна лінійна модель:
Але наш набір даних містить деякі записи з відсутньою . У наборі даних передбачення, де модель буде використовуватися, також будуть випадки відсутності . Здається, два способи продовжити:X 3
Кілька моделей
Ми могли б розділити дані на та випадки та створити окрему модель для кожного. Якщо ми припускаємо, що тісно пов'язаний з то відсутня модель даних може мати надмірну вагу щоб отримати найкращий прогноз на два прогнози. Крім того, якщо випадки відсутніх даних дещо відрізняються (через механізм відсутності даних), то це може включати цю різницю. На нижній стороні обидві моделі вміщують лише частину даних кожна, і не «допомагають» одна одній, так що вміст може бути поганим на обмежених наборах даних.X 3 X 3 X 2 X 2
Імпутація
спочатку заповнює , будуючи модель на основі і а потім випадковим чином відбираючи вибірки для підтримки шуму в імпутованих даних. Оскільки це знову дві моделі, чи не в кінцевому підсумку це буде таким самим, як метод з декількома моделями вище? Якщо вона здатна перевершити - звідки береться прибуток? Це просто те, що придатність для робиться на всьому наборі?X 1 X 2 X 1
Редагувати:
Хоча відповідь Стефана поки що пояснює, що встановлення повної моделі корпусу на імпутовані дані випереджає вміст повних даних, і, здається, очевидно, що навпаки, правда, все ще існує деяке непорозуміння щодо прогнозування відсутніх даних.
Якщо у мене є вищевказана модель, навіть ідеально підібрана, це взагалі буде жахливою моделлю прогнозування, якщо я просто поставив нуль при прогнозуванні. Уявімо, наприклад, що тоді є абсолютно марним ( ), коли присутній, але все-таки буде корисним за відсутності .X 2 β 2 = 0X 3
Ключове питання, яке я не розумію, це: чи краще побудувати дві моделі: одну за допомогою та одну за допомогою , чи краще побудувати єдину (повну) модель та використовувати імпутація на наборах даних прогнозу - чи це одне і те ж?( X 1 , X 2 , X 3 )
Наводячи відповідь Стефана, здається, що краще побудувати повну модель справи на імпутованому навчальному наборі, і навпаки, мабуть, найкраще побудувати відсутню модель даних на повному наборі даних із відхиленими . Чи відрізняється цей другий крок від використання моделі імпутації в даних прогнозування?