10-кратна перехресна валідація проти перехресної валідації


25

Я роблю вкладену перехресну перевірку. Я прочитав, що перехресне підтвердження виходу з одного виходу може бути упередженим (не пам'ятаю чому).

Чи краще використовувати 10-кратну перехресну валідацію або перехресну валідацію "один-один", окрім більш тривалої тривалості виконання для перехресної перевірки "вихід-один-вихід"?


1
Ви пам’ятаєте, де це читали?
Річард Харді

5
Ви бачили цю публікацію про упередженість? Також у цій відповіді є цитата дуже хорошої книги, яка рекомендує 5-кратну або 10-кратну перехресну перевірку.
Ерік Фарнг

1
Цей пост трохи пов’язаний.
Річард Харді

1
Дякую. Так що в цілому можна сказати, що мені слід їхати з 10-кратним резюме замість виїзного резюме? Це також стосується невеликого набору даних?
техніка

1
@Thomas, коли ваш набір даних стає занадто малим, ви в кінцевому підсумку майже робите LOO-CV, тому вигода від 10-кратного резюме зменшується, коли розмір вашого набору даних зменшується.
cdeterman

Відповіді:


27

Просто додати трохи відповіді на @SubravetiSuraj (+1)

Перехресне підтвердження дає песимістично упереджену оцінку результативності, оскільки більшість статистичних моделей покращиться, якщо навчальний набір буде збільшений. Це означає, що перехресна перевірка k-кратна оцінює ефективність моделі, підготовленої на наборі даних 100 * (k-1) / k% наявних даних, а не на 100% її. Отже, якщо ви зробите перехресну перевірку для оцінки продуктивності, а потім використовуєте модель, навчену на всіх даних для оперативного використання, вона буде працювати трохи краще, ніж пропонує оцінка перехресної перевірки.

Перехресна перевірка залишків-один-один приблизно непідвладна , тому що різниця в розмірі між навчальним набором, який використовується в кожній складці, та всім набором даних є лише однією схемою. Про це є праця Лунца та Брайловського (російською мовою).

Лунц, Олександр та Віктор Браїловський. "Про оцінку символів, отриманих в статистичній процедурі розпізнавання." Технічна Кібернетика 3.6 (1969): 6-12.

Дивись також

Оцінка рівня помилок у дискримінаційному аналізі Пітер А. Лахенбрух та М. Рей Міккі Технометрика Vol. 10, вип. 1,1968

Однак, хоча перехресне підтвердження виходу з одного виходу є приблизно неупередженим, воно, як правило, має велику дисперсію (тому ви отримаєте дуже різні оцінки, якби повторили оцінку з різними початковими зразками даних з одного розподілу). Оскільки помилка оцінювача є комбінацією зміщення та дисперсії, то чи перехресна перевірка на один-один вихід краща за 10-кратну перехресну валідацію залежить від обох величин.

Тепер дисперсія у підгонці моделі, як правило, вища, якщо вона встановлена ​​на невеликий набір даних (оскільки вона більш чутлива до будь-яких артефактів шуму / вибірки у конкретному використовуваному навчальному зразку). Це означає, що 10-кратна перехресна перевірка, ймовірно, матиме велику дисперсію (як і більшу зміщення), якщо у вас є лише обмежений обсяг даних, оскільки розмір навчального набору буде меншим, ніж для LOOCV. Таким чином, перехресне підтвердження k-кратного перекладу може також мати проблеми з варіацією, але з іншої причини. Ось чому LOOCV часто краще, коли розмір набору даних невеликий.

Однак, на мою думку, основною причиною використання LOOCV є те, що для деяких моделей він обчислювально недорогий (наприклад, лінійна регресія, більшість методів ядра, класифікатори найближчих сусідів тощо), і якби набір даних був дуже малим, я б використовував 10-кратна перехресна перевірка, якщо вона вписується в мій обчислювальний бюджет, а ще краще - оцінка завантажувального завантаження та розробка мішків.


2
+1 за незрозумілу російську довідку 1969 року! Чи є у вас хороша орієнтація на те, що LOOCV має велику дисперсію? Про це йдеться у Hastie et al, але я не впевнений, що я на 100% переконаний у цьому аргументі, і я не бачив емпіричних демонстрацій (симуляцій).
амеба каже, що поверніть Моніку

3
так, я не думаю, що я з цим погоджуюся, оскільки передбачає, що модель стабільна під збуреннями, спричиненими видаленням тестових зразків, що вірогідне лише тоді, якщо у вас дуже великий набір даних (тобто це лише асимптотично вірно, але якби у вас було стільки даних, майже будь-яка розумна схема оцінки ефективності дала б вам такий же результат).
Дікран Марсупіал

2
+1 (як публікація, так і останній коментар - чудовий папір, але не слід засліплювати його (як будь-який інший документ)).
usεr11852 повідомляє Відновити Монік

2
@Dikran Ця тема (з найбільшою дисперсією LOOCV) знову виникла в окремому і досить цікавому питанні: stats.stackexchange.com/questions/280665 , ви можете поглянути.
амеба каже, що повернеться Моніка

2
Ось ще одне моделювання stats.stackexchange.com/a/357749 , що показує, що дисперсія оцінювача CV зменшується зі збільшенням кількості складок, а LOOCV має таку саму (або нижчу) дисперсію, як у 10 разів. Інше моделювання, пов'язане в моєму коментарі вище, показало ще один приклад, коли дисперсія зменшувалась до та була найнижчою для LOOCV. На даний момент мені дуже цікаво бачити будь-яке моделювання, де дисперсія зростала б із кількістю складок. Я також починаю бути досить скептичним, що це може статися на практиці. к
амеба каже, що повернеться Моніка

20

На мою думку, залишати одну перехресну перевірку краще, коли у вас є невеликий набір навчальних даних. У цьому випадку ви не можете реально зробити 10 разів, щоб передбачити використання решти даних для тренування моделі.

Якщо у вас є великий обсяг даних про тренінг, з іншого боку, краща вакцинація в десятки разів, оскільки буде занадто багато ітерацій для того, щоб залишити одну перехресну перевірку, і враховуючи, що ці результати можуть налаштувати ваші гіперпараметри не бути такою хорошою ідеєю.

Відповідно до ISL, завжди існує компроміс з ухилом відхилення між тим, як робити один виїзд і до кратної перехресної перевірки. У LOOCV (залиште одне резюме) ви отримуєте оцінки помилок тесту з меншим ухилом і більшою дисперсією, оскільки кожен навчальний набір містить n-1 прикладів, це означає, що ви використовуєте майже весь навчальний набір у кожній ітерації. Це призводить і до більш високої дисперсії, оскільки між навчальними наборами є велике перекриття, і, таким чином, оцінки помилок тесту дуже корелюються, що означає, що середнє значення оцінки тестової помилки матиме більшу дисперсію.

Навпаки це стосується k-кратного резюме, оскільки порівняно менше перекриття між навчальними наборами, тому оцінки тестових помилок є менш корельованими, внаслідок чого середнє значення помилки тесту не матиме стільки дисперсії, як LOOCV.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.