Множинна імпутація є досить простою, коли у вас є апріорна лінійна модель, яку ви хочете оцінити. Однак справи здаються дещо складнішими, коли ви насправді хочете зробити якийсь вибір моделі (наприклад, знайти "найкращий" набір змінних прогнозів з більшого набору змінних кандидатів - я маю на увазі конкретно LASSO та дробові поліноми, що використовують R).
Однією з ідей було б встановити модель у вихідні дані з відсутніми значеннями, а потім переоцінити цю модель у наборах даних MI та поєднати оцінки, як зазвичай. Однак це здається проблематичним, оскільки ви очікуєте упередженості (інакше чому МІ в першу чергу?), Що може призвести до вибору "неправильної" моделі з самого початку.
Іншою ідеєю було б пройти будь-який процес вибору моделі, який ви використовуєте у кожному наборі даних MI - але як би ви потім поєднали результати, якщо вони включають різні набори змінних?
Я вважав, що скласти набір наборів даних MI та проаналізувати їх як один великий набір даних, який ви потім використаєте для встановлення єдиної "найкращої" моделі та включити випадковий ефект для врахування того факту, для якого ви використовуєте повторні заходи для кожне спостереження.
Це звучить розумно? Чи, можливо, неймовірно наївно? Будь-які вказівки щодо цього питання (вибір моделі з багаторазовою імпутацією) були б дуже вдячні.