Як можна вирішити відсутні дані, використовуючи сплайни або дробові многочлени?


12

Я читаю багатоваріантну побудову моделей: прагматичний підхід до регресійного аналізу на основі дробових поліномів моделювання безперервних змінних Патріка Ройстона та Віллі Зауербрей. Поки що я вражений, і цікавий підхід я раніше не розглядав.

Але автори не мають справу з відсутніми даними. Дійсно, на с. 17 вони кажуть, що відсутні дані "створюють багато додаткових проблем. Тут не враховуються".

Чи багаторазова імпутація працює з дробовими многочленами>

ПП є певною мірою (але не всіма) альтернативою сплайнам. Чи легше боротися з відсутніми даними для регресії сплайну?


Чи маєте ви справу з пропущеними x або відсутніми y або обома?
Glen_b -Встановити Моніку

2
+1 (!) Я дуже радий, що хтось ще задає подібне запитання. Нещодавно я опублікував це питання: stats.stackexchange.com/questions/295977/… про те, як використовувати обмежені кубічні сплайни у ​​мишей R. Я б конкретно вибрав сплайни, оскільки вони не вимагають вказувати дробовий многочлен, тоді як сплайни є досить гнучкими для багатьох функціональних форм. Не знаю, чи відповідає це на ваше запитання (звідси цей коментар).
IWS

2
Це цікаве питання, що відкриває (як один з аспектів можливої ​​відповіді) можливість критикувати ці кілька методів згладжування / інтерполяції, протиставляючи їх здатності розміщувати відсутні дані. (Певною мірою нестабільність до відсутності є «збентеженням» для сучасного методу.) Зауважу, лише передаючи очевидний момент, що байєсівська реалізація отримає вам вашу імпутацію «безкоштовно».
Девід К. Норріс

2
@ DavidC.Norris Ваш коментар мене інтригує! Чи можете ви детальніше розповісти про те, як байєсівські методи вміщують відсутніх "безкоштовно" (я вважаю, що ви маєте на увазі, що методи аналізу належним чином обробляються "автоматично" та як за замовчуванням)? (Або вкажіть на мене посилання)
IWS

2
Безкоштовна частина обіду "вільного" тут полягає в тому, що ви повинні записати байєсівську модель, яка передбачає чітке роздуми над процесом генерування даних ( DGP ). Щойно ви зробите це, ви трактуєте пропущені значення як параметри [nuisance]. (У Bayesian "все є параметром". Див. Також приховану змінну .) Ваш MCMC, по суті, використовує вказаний вами DGP для "імпультування" відсутніх значень "безкоштовно", коли він переміщається.
Девід К. Норріс

Відповіді:


1

Множинна імпутація може бути використана з дробовими поліномами та сплайнами. Скажімо, що представляє вашу функціональну форму (наприклад, ). Нехай - функція, що оцінюється у кожному з синтетичних зразків, тоді ваша функція .f(x)f(x)=x+x.5fm()M1MmMfm(x)

Якщо припустити, що програмне забезпечення, яке ви використовуєте, може надати стандартну оцінку помилок для кожного унікального значення x, ви можете використовувати формулу Рубіна (Множинна імпутація за невідповіді в опитуваннях; 1987) для обчислення стандартних помилок. Існують малі та великі формули вибірки для ступенів свободи з багаторазовою імпутацією. Велика формула зразка (також у Рубіна) просто приймає ті ж дані, що і стандартна помилка, тому також може бути використана. Маленький зразок зразка приймає ступінь свободи моделі як вхід; мені очевидно, чи можна цю формулу застосувати тут.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.