Я переглядав різні теми тут, але не думаю, що на моє точне запитання відповіли.
У мене є набір даних ~ 50 000 студентів та їх час до відмови. Я буду виконувати пропорційну регресію небезпек із великою кількістю потенційних коваріатів. Я також збираюся здійснити логістичну регресію при відмові / перебуванні. Основною метою буде прогнозування нових груп студентів, але у нас немає підстав вважати, що вони сильно відрізнятимуться від минулорічної когорти.
Зазвичай у мене немає такої розкішності даних і я можу відповідати моделі певною мірою пеналізацією, але на цей раз я подумав розділити набори даних для навчання та тестування, а потім зробити мінливий вибір на навчальному наборі; потім використовуючи набір даних тесту для оцінки параметрів та прогнозованої здатності.
Це хороша стратегія? Якщо ні, то що краще?
Цитати вітаються, але не обов'язково.