Чи слід в довгостроковому дослідженні зараховувати результат Y, виміряний у часі 2, для осіб, втрачених для подальшого спостереження?


10

У мене є повторні заходи у 2 рази в вибірці людей. Наразі 18 тис. Людей на час 1, а 13 к на час 2 (5000 втрачено для подальшого спостереження).

Я хочу регресувати результат Y, виміряний у часі 2 (а результат не вдається виміряти під час 1) на множині предикторів X, виміряних за час 1. Усі змінні мають деякі відсутні дані. Більшість з них виглядає відносно випадково, або відсутність здається добре описаною спостережуваними даними. Однак переважна більшість недоліків у результаті Y пов'язана з можливістю подальших втрат. Я буду використовувати декілька імпутацій (R :: мишей) і використовую повний набір даних для імпультування значень для X, але я отримав 2 частини конфліктних порад щодо імпутації Y:

1) Імпутуйте Y з X і V (V = корисні допоміжні змінні) у повній вибірці 18k.

2) Не вмикайте Y в окремих людей, втрачених для подальшого спостереження (і, таким чином, відмовляйтеся від будь-якого подальшого регресійного моделювання).

Перший має сенс, оскільки інформація є інформацією, то чому б не використати її всю; Але останній також має сенс, більш інтуїтивно зрозумілим способом - просто здається неправильним приписати результат для 5000 людей на основі Y ~ X + V, щоб потім розвернутися і оцінити Y ~ X.

Що (більше) правильно?

Це попереднє питання є корисним, але не стосується безпосередньо відсутності через втрату в подальшому (хоча, можливо, відповідь однаковий; я не знаю).

Багаторазова імпутація змінних результатів


Мені це здається суперечливим - ви можете пояснити ?: "Більшість це видається відносно випадковим, або відсутність здається добре описаною спостережуваними даними".
rolando2

1
Багаторазова імпутація та більшість інших процедур імпутації вимагають, щоб ваші дані були відсутні випадково (MAR). Потрібно було б зрозуміти механізм виснаження у вашому дослідженні. Я б підозрював, що у наступних дослідженнях, однак, ваші відсутні значення, швидше за все, не є MAR або MCAR.
Студент

Відповіді:


2

Я думаю, що це справа інструментарію. Ви хочете відсутній X, а не зниклий Y.

Y~X

Але X часто відсутня або неправильно вимірюється.

X~Z and Z does not impact Y- except through X.

Тоді ви можете запустити:

 X~Z
 Y~Predicted(X)

І вимагати певного коригування стандартних помилок.

Ви також можете ознайомитися з етапом процедури Heckmann 2, якщо у вас є багато зразків зразків. http://en.wikipedia.org/wiki/Heckman_correction


2

Я б стверджував, що жодне з них не є найбільш підходящим.

Імпутація, як правило, не підходить, коли дані не є MAR або MCAR і дані рідко трапляються таким чином. При введенні вашогоХ цінності, які можуть бути розумними припущеннями, але, безумовно, не для ваших Y дані.

Видалення всіх відсутніх даних зі своїх даних призводить до зміщення параметрів (якщо дані не MCAR, див. Вище) та значно знижує точність ваших оцінок. Це аналіз "повного випадку" і недоцільний.

Я б запропонував переглянути методи аналізу виживання там. Це методи, розроблені для аналізу ваших даних, враховуючи, що деякі вашіYрезультати не помічені через цензуру. Є моделі, які враховують це, якщо ви зможете визначити, які спостереження піддаються цензурі.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.