Як визначити, чи підходить модель виживання з відсутніми даними?

9

Я трохи спрощуючи, я маю близько мільйона записів, які фіксують час входу та виходу людей у систему, яка охоплює близько десяти років. Кожен запис має час входу, але не кожен запис має час виходу. Середній час роботи в системі становить ~ 1 рік.

Часи виходу відсутні через дві причини:

Людина не покинула систему під час збору даних.
Час виходу людини не зафіксовано. Так трапляється, говорять, 50% записів

Цікаві питання:

Чи менше людей проводять менше часу в системі, а скільки менше часу.
Чи записується більше часу виходу та скільки.

Ми можемо моделювати це, сказавши, що ймовірність запису виходу змінюється лінійно з часом і що час у системі має Weibull, параметри якого лінійно змінюються з часом. Тоді ми можемо зробити максимальну оцінку ймовірності різних параметрів і очні яблука отримати результати та вважати їх правдоподібними. Ми вибрали дистрибутив Вейбулла, тому що він, здається, використовується для вимірювання часу життя, і це цікаво сказати, на відміну від відповідності даним краще, ніж скажімо, розподілу гамми.

Де я повинен шукати, щоб отримати підказку, як це зробити правильно? Ми дещо кмітливі, але не надзвичайно статистично спритні.

survival missing-data

— deinst
джерело

5

Основний спосіб дізнатися, чи є вашими даними Weibull, - це побудувати журнал накопичувальних небезпек проти журналу часу та побачити, чи може підходити пряма лінія. Накопичувальну небезпеку можна знайти за допомогою непараметричного оцінника Нельсона-Аалена. Існує аналогічна графічна діагностика для регресії Вейбулла, якщо ви підходите до своїх даних з коваріатами і з них випливають деякі посилання.

Текст Klein & Moeschberger досить непоганий і охоплює багато підстав для побудови / діагностики моделей для параметричних та напівпараметричних моделей (хоча здебільшого останніх). Якщо ви працюєте в R, книга Тено досить гарна (я вважаю, він написав пакет виживання ). Він охоплює багато Cox PH та пов'язаних з ним моделей, але я не пам'ятаю, чи має він велике охоплення параметричних моделей, як та, яку ви будуєте.

До речі, це мільйон предметів, кожен з яких має один вхід / вихід або періодичні події в'їзду / виїзду для деяких менших груп людей? Ви обумовлюєте свою ймовірність врахувати механізм цензури?

— ар
джерело

Дякую, це саме те, що я шукав. По суті, це мільйон предметів, кожен з яких має час входу та виходу. Так, ми умовно враховуємо цензуру.

— deinst

2

Ви можете використовувати оціночну модель для прогнозування часу виходу для всіх людей у вашій системі. Потім можна порівняти передбачувані часи виходу з фактичними часом виходу (де у вас є ці дані) та обчислити такий показник, як RMSE, щоб оцінити, наскільки хороші ваші прогнози, що, в свою чергу, дасть вам відчуття відповідності моделі. Дивіться також це посилання .

1

Маючи мільйон балів та 8-параметричну модель, корисність тесту на придатність на зразок чі-квадрата говорить мені, що по суті немає жодного шансу на те, що модель правильна. (Що не дивно, оскільки є нескінченні фактори , що впливають на реальність, які не в моделі) RMSE дає мені відчуття того , як добре модель відповідає даним, але не дає мені відчуття , чи є краща модель

— deinst

Ну а для того, щоб дізнатися, чи є краща модель, ви можете або експериментувати з різними рецептурами, або ви можете використовувати різні графіки (наприклад, час виходу проти часу), щоб побачити, чи відповідають ці дані вашим припущенням моделі. Ви також можете побудувати прогнозовані часи виходу для невеликого зразка, вибраного у випадковій по відношенню до фактичного часу часу, щоб зробити ідеї вдосконалення моделі.