У мене є повторні заходи у 2 рази в вибірці людей. Наразі 18 тис. Людей на час 1, а 13 к на час 2 (5000 втрачено для подальшого спостереження).
Я хочу регресувати результат Y, виміряний у часі 2 (а результат не вдається виміряти під час 1) на множині предикторів X, виміряних за час 1. Усі змінні мають деякі відсутні дані. Більшість з них виглядає відносно випадково, або відсутність здається добре описаною спостережуваними даними. Однак переважна більшість недоліків у результаті Y пов'язана з можливістю подальших втрат. Я буду використовувати декілька імпутацій (R :: мишей) і використовую повний набір даних для імпультування значень для X, але я отримав 2 частини конфліктних порад щодо імпутації Y:
1) Імпутуйте Y з X і V (V = корисні допоміжні змінні) у повній вибірці 18k.
2) Не вмикайте Y в окремих людей, втрачених для подальшого спостереження (і, таким чином, відмовляйтеся від будь-якого подальшого регресійного моделювання).
Перший має сенс, оскільки інформація є інформацією, то чому б не використати її всю; Але останній також має сенс, більш інтуїтивно зрозумілим способом - просто здається неправильним приписати результат для 5000 людей на основі Y ~ X + V, щоб потім розвернутися і оцінити Y ~ X.
Що (більше) правильно?
Це попереднє питання є корисним, але не стосується безпосередньо відсутності через втрату в подальшому (хоча, можливо, відповідь однаковий; я не знаю).