Для кожного запису в моїх наборах даних я маю таку інформацію
де є функції, дорівнює 1, якщо відбувається цільова подія, а 0 в іншому випадку, і є часовою позначкою події, що сталася. Зокрема, може бути відсутнім, якщо не було події або встановлено час завершення спостереження.
Я хочу обчислити індекс ризику для кожного запису в моєму наборі даних.
Я думав перейти до класифікаційної моделі, яка використовує функції передбачити клас . Однак, важливо: якщо подія швидше за все, ризик повинен бути вищим.
Ось чому аналіз виживання повинен відповідати цій проблемі. Мені не потрібна повна оцінка а лише один індекс, який представляє ризик для одного запису.
Середній час виживання, який можна обчислити для кожного запису, здається приємним показником ризику - чим нижче, тим вище ризик.
Моє запитання:
- Чи підходить аналіз виживання для моїх цілей?
- Як я можу оцінити продуктивність своєї моделі?
Питання (2): Я прагну використовувати Гаррелла -index, наприклад, але я не впевнений, який прогнозований результат використовується для його обчислення. 247 з книги Гаррелла, стратегія моделювання регресії, сторінка 247:
The індекс [...] обчислюється шляхом взяття всіх можливих пар предметів таким чином, що один суб'єкт відповів, а другий - ні. Індекс - це частка таких пар із респондентом, який має більш високу прогнозовану ймовірність відповіді, ніж невідповідач.
Якщо аналіз виживання виявився правильним вибором, я думаю, що слід запровадити стандартний метод для введення коваріатів, що змінюються часом .