Описана вами методика називається імпутацією послідовними регресіями або багаторазовою імпутацією ланцюговими рівняннями. Техніку запровадили Рагхунатан (2001) та впровадили у добре працюючому пакеті R, названому mice
(van Buuren, 2012).
Документ Schafer and Graham (2002) добре пояснює, чому середнє імпутація та списування видалення (те, що ви називаєте виключенням рядка) зазвичай не є хорошими альтернативами вищезгаданим методам. В основному середня імпутація не є умовною, і, таким чином, може зміщувати імпутовані розподіли у напрямку спостережуваного середнього. Це також зменшить дисперсію, серед інших небажаних впливів на імпульсний розподіл. Крім того, видалення за списком дійсно буде спрацьовувати лише у тому випадку, якщо дані повністю відсутні випадковим чином, як, наприклад, перевернути монету. Також це збільшить помилку вибірки, оскільки зменшиться розмір вибірки.
Автори, які цитуються вище, зазвичай рекомендують починати зі змінної із найменшими відсутніми значеннями. Також методику зазвичай застосовують байєсівським способом (тобто розширенням вашої пропозиції). Змінні відвідуються частіше в процесі імпутації, не лише один раз. Зокрема, кожна змінна комплектується малюнками з її умовного заднього прогнозного розподілу, починаючи з змінної, що містить найменш відсутні значення. Після того, як всі змінні в наборі даних будуть виконані, алгоритм знову починається з першої змінної, а потім повторно повторюється до конвергенції. Автори показали, що цей алгоритм є Гіббсом, тому він зазвичай сходить до правильного багатофакторного розподілу змінних.
Зазвичай, тому що є якісь нестабільні припущення, зокрема відсутні у випадкових даних (тобто, чи спостерігаються дані чи ні, залежить лише від спостережуваних даних, а не від незабезпечених значень). Також процедури можуть бути частково несумісними, через що вони отримали назву PIGS (частково несумісний пробовідбірник Гіббса).
На практиці багаторазова імпутація Баєса все ще є хорошим способом вирішити багатовимірні немонотонні проблеми з відсутніми даними. Крім того, непараметричні розширення, такі як середнє значення прогнозування, допомагають послабити припущення щодо моделювання регресії.
Raghunathan, TE, Lepkowski, J., van Hoewyk, J., & Solenberger, P. (2001). Багатовимірна техніка множення введення відсутніх значень за допомогою послідовності регресійних моделей. Методологія опитування, 27 (1), 85–95.
Schafer, JL, & Graham, JW (2002). Відсутні дані: наш погляд на сучасний стан Психологічні методи, 7 (2), 147–177. https://doi.org/10.1037/1082-989X.7.2.147
ван Бурен, С. (2012). Гнучка імітація відсутніх даних. Бока Ратон: Преса CRC.