Навчання, тестування, перевірка проблеми аналізу виживання


14

Я переглядав різні теми тут, але не думаю, що на моє точне запитання відповіли.

У мене є набір даних ~ 50 000 студентів та їх час до відмови. Я буду виконувати пропорційну регресію небезпек із великою кількістю потенційних коваріатів. Я також збираюся здійснити логістичну регресію при відмові / перебуванні. Основною метою буде прогнозування нових груп студентів, але у нас немає підстав вважати, що вони сильно відрізнятимуться від минулорічної когорти.

Зазвичай у мене немає такої розкішності даних і я можу відповідати моделі певною мірою пеналізацією, але на цей раз я подумав розділити набори даних для навчання та тестування, а потім зробити мінливий вибір на навчальному наборі; потім використовуючи набір даних тесту для оцінки параметрів та прогнозованої здатності.

Це хороша стратегія? Якщо ні, то що краще?

Цитати вітаються, але не обов'язково.

Відповіді:


8

З подібною частотою результатів я виявив, що розділення даних може працювати, якщо . І це забезпечує неупереджену оцінку продуктивності моделі, належним чином штрафуючи для вибору моделі (якщо ви дійсно потребуєте вибору моделі; пеналізація все ж більш імовірно призведе до кращої моделі), якщо ви використовуєте тестовий зразок лише один раз. АЛЕ не використовуйте тестовий зразок для переоцінки параметрів. Розбиття даних покладається на модель, побудовану за допомогою навчального зразка, який потрібно покласти в «глибоку заморозку» і застосувати до тестового зразка без перекочування.n>20,000


Спасибі. Чи рекомендуєте ви 80-20? 90-10? Щось ще? Будь-які посилання на це?
Пітер Флом - Відновити Моніку

2
Я не відставав від літератури щодо оптимальної конфігурації розбиття. Але застосовуються деякі загальні принципи. Для вибірки валідації потрібно достатньо великих розмірів, щоб ви могли оцінити калібрувальну криву з великою точністю, тоді вам потрібно побачити, що те, що залишилося, є більш ніж достатнім для надійної підгонки моделі (використовуючи, скажімо, співвідношення подій 20: 1: кандидат параметри, якщо ви не штрафуєте). n
Френк Харрелл

3

Я сам розглядав цей документ для аналогічного завдання перехресного перевірки прогнозу виживання. Хороші шматочки починаються з розділу 2.


Це здається для порівняння в 5 разів з модельною оцінкою на основі CV (і робиться висновок, що в 5 разів краще). Але мене більше зацікавило просто розділення даних на 2 частини та використання однієї для перевірки іншої.
Пітер Флом - Відновити Моніку

1
Виявлення, яке я виявив у цьому, і чому мене спочатку приваблювала ця стаття, полягала в тому, як боротися з цензурою в прогнозах виживання, тобто, яку функцію втрат використовувати (хоча перечитавши своє запитання, цензура може не мати).
Cam.Davidson.Pilon

У мене цензура, і дисертація цікава, але це не відповідь на моє запитання, я не думаю.
Пітер Флом - Відновіть Моніку

1

З цього моменту я знайшов цю статтю, яка не лише відповідає на моє запитання, але пропонує метод для визначення оптимального розподілу для конкретних наборів даних. Я знайшов це завдяки використанню @FrankHarrell терміна "оптимальна розділена конфігурація", який я потім гугл.


2
Петро, ​​я вважаю, що в папері було використано неправильне правило. При використанні правильних правил балу можуть бути отримані різні результати. Крім того, у статті не було розглянуто "мінливість" аналізу. При малих загальних розмірах вибірки, що розглядається там, повторення процесу з використанням іншого випадкового розбиття призведе до набагато різних моделей і набагато різної точності порівняно з першим розщепленням. Я бачу, що це дуже небажано.
Френк Харрелл

@FrankHarrell: Я бачу вашу думку, і це справді дуже хороший момент. Що тоді ти рекомендуєш робити? Пеформ Монте-Карло пробігає поїзд / тестові розколи, а потім на кожному пробігу роблять ix k-складки CV (або завантажувальний)? Але тоді це призведе до забруднення всього набору даних .... Я не бачу кращого рішення, ніж знайти відповідний спосіб розділити набір даних на набори поїздів і тестів (якими були б критерії?). Мені просто не зручно використовувати всі набір даних для навчання та затвердження (за допомогою CV або завантаження) моделей (з яких одна (або кілька) буде використовуватися для прогнозування невідомих вихідних значень на основі деяких вхідних даних).
jpcgandre

Я звернувся до цього у публікації, яку ви просто розмістили на іншій темі.
Френк Харрелл
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.