Використовуючи ревізію k-кратного для вибору серед регресійних моделей, я зазвичай обчислюю похибку CV окремо для кожної моделі разом із її стандартною помилкою SE, і я вибираю найпростішу модель в межах 1 SE від моделі з найнижчою помилкою CV (1 стандартне правило помилок, див. наприклад тут ). Однак мені нещодавно сказали, що таким чином я завищую мінливість, і що в конкретному випадку вибору між двома моделями A і B я дійсно повинен діяти по-іншому:
- за кожну складку довжини , обчисліть точкові різниці між прогнозами двох моделей. Потім обчисліть середню квадратичну різницю для складання
- середній поперек складок, як зазвичай, і використовуйте цю помилку різниці CV (разом зі стандартною помилкою) як оцінювач для помилки узагальнення.
Запитання:
- Це має для вас сенс? Я знаю, що існують теоретичні причини використання помилки CV як оцінювача помилки узагальнення (я не знаю, які ці причини, але я знаю, що вони існують!). Я не маю уявлення, чи є теоретичні причини, що стоять за використанням цієї помилки CV "різниця".
- Я не знаю, чи можна це узагальнити до порівнянь більш ніж двох моделей. Обчислення відмінностей для всіх пар моделей здається ризикованим (багаторазове порівняння?): Що б ви зробили, якби у вас було більше двох моделей?
EDIT: моя формула абсолютно неправильна, тут описана правильна метрика, і це набагато складніше. Ну, я щасливий, що запитав тут, перш ніж сліпо застосувати формулу! Я дякую @Bay за допомогу мені зрозуміти його \ її освітлюючу відповідь. Описаний правильний захід є досить експериментальним, тому я буду дотримуватися свого надійного робочого коня, помилка резюме!