Аналіз виживання для прогнозування подій


9

Для кожного запису в моїх наборах даних я маю таку інформацію

(Х1 , ,Хм ,δ ,Т )

де Хi є функції, δ дорівнює 1, якщо відбувається цільова подія, а 0 в іншому випадку, і Тє часовою позначкою події, що сталася. Зокрема,Т може бути відсутнім, якщо не було події або встановлено час завершення спостереження.

Я хочу обчислити індекс ризику для кожного запису в моєму наборі даних.

Я думав перейти до класифікаційної моделі, яка використовує функції Хi передбачити клас δ. Однак,Т важливо: якщо подія δ швидше за все, ризик повинен бути вищим.

Ось чому аналіз виживання повинен відповідати цій проблемі. Мені не потрібна повна оцінкаS(т)=П(Т>т) а лише один індекс, який представляє ризик для одного запису.

Середній час виживання, який можна обчислити для кожного запису, здається приємним показником ризику - чим нижче, тим вище ризик.

Моє запитання:

  1. Чи підходить аналіз виживання для моїх цілей?
  2. Як я можу оцінити продуктивність своєї моделі?

Питання (2): Я прагну використовувати Гаррелла c-index, наприклад, але я не впевнений, який прогнозований результат використовується для його обчислення. 247 з книги Гаррелла, стратегія моделювання регресії, сторінка 247:

The cіндекс [...] обчислюється шляхом взяття всіх можливих пар предметів таким чином, що один суб'єкт відповів, а другий - ні. Індекс - це частка таких пар із респондентом, який має більш високу прогнозовану ймовірність відповіді, ніж невідповідач.

Якщо аналіз виживання виявився правильним вибором, я думаю, що слід запровадити стандартний метод для введення коваріатів, що змінюються часом Хi(т).

Відповіді:


3

Чи підходить аналіз виживання для моїх цілей?

Єдине, що робить це менш придатним для аналізу виживання:

... ТТ може бути відсутнім, якщо не було події або встановлено час завершення спостереження.

Вам потрібно буде знати останній період, коли спостерігалося, що ця людина була живою для більшості моделей. В іншому випадку слід використовувати простий і застосовний для використання аналіз виживання. Наприклад, пропорційна небезпека Кокса survival::coxphв R або параметричних моделях з survival::survreg.

Середній час виживання, який можна обчислити для кожного запису, здається приємним показником ризику - чим нижче, тим вище ризик.

Так, ви можете використовувати середній час виживання або просто лінійний прогноктор для двох колишніх згаданих (класів) моделей.

Як я можу оцінити продуктивність своєї моделі?

The cіндекс здається мені розумним вибором як "природне" узагальнення AUC. Зауважте, що реалізовано в R з напр Hmisc::rcorr.cens.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.