Оскільки ОП поставила прихильність цьому питанню, воно повинно привернути певну увагу, і, таким чином, це правильне місце для обговорення деяких загальних ідей, навіть якщо це не відповідає безпосередньо ОП.
Ім'я:
а) перехресне підтвердження - це загальна назва всіх методик оцінювання / вимірювання, які використовують тестовий набір, відмінний від набору поїздів. Синонім: оцінки поза вибіркою або поза вибіркою. Антонім: оцінка вибірки.
In-sample оцінка - методи, які використовують певну інформацію про навчальний набір для оцінки якості моделі (не обов'язково помилки). Це дуже часто, якщо модель має велику упередженість - тобто вона робить сильні припущення щодо даних. У лінійних моделях (модель з високим зміщенням), як у прикладі запитання, використовуються R-квадрат, AIC, BIC, відхилення, як міра якості моделі - все це є вибірковими оцінками. Наприклад, у SVM відношення даних у векторі підтримки до кількості даних - це вибіркова оцінка похибки моделі.
Існує багато методів перехресної перевірки:
б) витримка - це метод №1 вище. Розділіть набір на навчальний та один тест. Існує довга історія дискусій та практик щодо відносних розмірів навчального та тестового набору.
в) k- кратно - метод №2 вище. Досить стандартний.
г) Вихід-один-вихід - метод №3 вище.
д) завантажувальна програма : якщо ваш набір має N даних, випадковим чином виберіть N зразків із заміною з набору та використовуйте це як навчання. У якості тестового набору використовуються дані з оригінального набору, який не був відібраний ніколи. Існують різні способи обчислення остаточної оцінки похибки моделі, яка використовує як помилку для тестового набору (поза вибіркою), так і помилку для набору поїздів (у зразку). Див., Наприклад, завантажувальну систему .632. Я думаю, що існує також формула .632+ - це формули, які оцінюють справжню помилку моделі, використовуючи як помилки поза вибіркою, так і помилки у вибірці.
f) Ортогональним до вибору вищевказаного методу є питання повторення. За винятком виходу з режиму «один-один», усі вищевказані методи можна повторити будь-яку кількість разів. Насправді можна говорити про повторне утримування або повторне k- кратне. Для справедливості, майже завжди метод завантаження використовується повторно.
Наступне питання, який метод "кращий". Проблема в тому, що означає "краще".
1) Перша відповідь - чи упереджений кожен з цих методів для оцінки помилки моделі (для нескінченної кількості майбутніх даних).
2) Друга альтернатива полягає в тому, наскільки швидко або наскільки добре кожен із цих методів конвергується до справжньої помилки моделі (якщо вони не є упередженими). Я вважаю, що це все ще тема дослідження. Дозвольте вказати на ці два документи (за платною стіною), але реферат дає нам певне розуміння того, що вони намагаються досягти. Також зауважте, що дуже часто називати k -fold як "перехресну перевірку" саме по собі.
Напевно багато інших робіт на ці теми. Це лише деякі приклади.
3) Ще одним аспектом "кращого" є: з огляду на конкретний показник помилки моделі за допомогою одного з наведених вище методів, наскільки ви впевнені, що правильна помилка моделі близька.
Загалом, у цьому випадку потрібно вжити багатьох заходів помилки та обчислити довірчий інтервал (або достовірний інтервал, якщо дотримуватися байєсівського підходу). У цьому випадку питання полягає в тому, наскільки можна довіряти різниці набору помилок. Зауважте, що за винятком режиму "відпуск один", усі вищевикладені методи дадуть вам багато різних заходів ( k заходів для k- кратного, n заходів для n -повторного витримки), і таким чином ви можете виміряти дисперсію (або стандартне відхилення ) цього набору і обчислити довірчий інтервал для міри помилки.
Тут справи дещо ускладнюються. З того, що я розумію з статті Немає об'єктивного оцінювача дисперсії k- кратної перехресної валідації (не позаду платної стіни), не можна довіряти дисперсії, отриманій від k- кратної, тому не можна побудувати хороший інтервал довіри від k - складки. Також з того, що я розумію з статті Приблизні статистичні випробування для порівняння алгоритмів навчання контрольованої класифікації (не позаду платної стіни), методи, що використовують повторні заходи (повторне k-кратне, повторне затримка - не впевнений у завантажувальній програмі) буде під-оцінювати справжню дисперсію міри помилок (це дещо легко помітити - оскільки ви берете вибірку з кінцевого набору, якщо повторите міру дуже великої кількості Час повторюються ті ж самі значення, які зберігають середнє значення однаковим, але зменшують дисперсію). Таким чином, методи повторних заходів будуть надто оптимістичними на довірчому інтервалі.
Цей останній документ пропонує зробити 5 повторних 2-кратних - які він називає 5 × 2 CV - як хороший баланс багатьох заходів (10), але не надто багато повторень.
Редагувати:
Звичайно, у перехресній валідації є чудові відповіді на деякі з цих питань (хоча іноді вони не погоджуються між собою). Ось декілька:
Перехресне підтвердження або завантаження для оцінки ефективності класифікації?
Різниці між перехресною валідацією та завантажувальною програмою для оцінки похибки прогнозування
Перехресне підтвердження або завантаження для оцінки ефективності класифікації?
Розуміння завантажувальної програми для перевірки та вибору моделі
Загалом, перехресна перевірка тегів - це ваш друг.
То яке найкраще рішення? Не знаю. Я використовував 5 × 2 CV, коли мені потрібно бути дуже суворим, коли мені потрібно бути впевненим, що одна методика краща за іншу, особливо в публікаціях. І я використовую затримку, якщо я не планую вносити будь-які міри відхилення чи стандартного відхилення, або якщо у мене є обмеження в часі - є лише одна модель навчання в затриманні .