У мене є деякі дані, і я хочу створити модель (скажімо, модель лінійної регресії) з цих даних. На наступному кроці я хочу застосувати перехресну перевірку Leave-One-Out (LOOCV) на моделі, щоб побачити, наскільки вона хороша.
Якщо я правильно зрозумів LOOCV, будую нову модель для кожного мого зразка (тестовий набір), використовуючи кожен зразок, крім цього зразка (навчальний набір). Потім я використовую модель для передбачення тестового набору та обчислення помилок .
На наступному етапі я агрегую всі помилки, згенеровані за допомогою обраної функції, наприклад середню помилку в квадраті. Я можу використовувати ці значення, щоб судити про якість (або корисність придатності) моделі.
Питання: Для якої моделі застосовуються ці значення якості, і яку модель слід вибрати, якщо я вважаю, що показники, згенеровані з LOOCV, підходять для мого випадку? LOOCV розглядав різних моделей (де - розмір вибірки); яку з них обрати модель?
- Це модель, яка використовує всі зразки? Ця модель ніколи не була розрахована під час процесу LOOCV!
- Це модель, яка має найменшу помилку?