Вкладена перехресна перевірка - чим вона відрізняється від вибору моделі через kfold CV на навчальному наборі?


10

Я часто бачу людей, які говорять про перехресну перевірку 5x2 як про особливий випадок вкладеної перехресної перевірки .

Я припускаю, що перше число (тут: 5) стосується кількості складок у внутрішній петлі, а друге число (тут: 2) стосується кількості складок у зовнішній петлі? Отже, чим це відрізняється від "традиційного" підбору моделі та підходу до оцінки? Під «традиційним» я маю на увазі

  • розділити набір даних на окремий тренінг (наприклад, 80%) і тестовий набір
  • використовувати k-кратну перехресну перевірку (наприклад, k = 10) для настройки гіперпараметра та вибору моделі на навчальному наборі
  • оцінити ефективність узагальнення обраної моделі за допомогою тестового набору

Хіба 5x2 точно не відрізняється, за винятком того, що тестовий і навчальний набір мають однаковий розмір, якщо k = 2?


1
Ви праві, в цьому випадку це те саме, за винятком того, що він використовує роздвоєння 50/50 у зовнішній петлі замість 80/20. Як правило, це дає кращу оцінку ефективності узагальнення і слід віддавати перевагу, особливо з відносно невеликими розмірами вибірки. З мого досвіду, навіть для вкладеного резюме, оцінка ефективності значно відрізняється. Часто краще виконати вкладений резюме кілька разів, щоб отримати хорошу оцінку ефективності узагальнення.
Джордж

Дякую, має сенс! Однак, для невеликих навчальних наборів я, мабуть, збільшив би кількість складок у внутрішній і зовнішній петлі; може зменшити дисперсію, але також збільшити упередженість

Взагалі, замість того, щоб робити CV-вкладку 5x2, я зазвичай виконую (k-1) xk, з k = 5 або 10. У випадку небагато зразків, замість збільшення кількості складок я б пішов на менші значення k .
Джордж

1
Я думаю, ви мали це назад, а не зовсім неправильно, але прийнята відповідь може не погодитися з джерелом, з яким я збираюся посилатись. У машинному навчанні Python від Рашка він посилається на "певний тип вкладеної перехресної перевірки також відомий як 5х2 перехресне підтвердження". Існує включена графіка, в якій він показує, що 2 відноситься до внутрішнього циклу для настройки параметрів гіперпараметрії, а 5 - до зовнішнього циклу для оцінки об'єктивності моделі. Кольорову копію графіки можна знайти у сценарії 3 тут: sebastianraschka.com/faq/docs/evaluate-a-model.html
Остін

Відповіді:


13

5x2cv, наскільки я бачив у літературі, завжди посилається на 5 повторення у 2 рази. Гніздування взагалі немає. зробіть у 2 рази (розділ 50/50 між поїздом і тестом), повторіть ще 4 рази. 5x2cv популяризували у статті Приблизні статистичні тести для порівняння алгоритмів навчання керованого класифікації Діттеріхом як спосіб отримання не лише хорошої оцінки похибки узагальнення, а й гарної оцінки дисперсії цієї помилки (для проведення статистичних тестів )


Дякую! Чи знаєте ви, що зазвичай роблять люди, якщо внутрішні петлі вибирають різні моделі, наприклад, якщо "оптимальним" параметром регуляризації є лямбда = 100 під час вибору однієї моделі, а лямбда = 1000 для іншої? У цьому випадку обчислення середньої продуктивності моделі було б трохи дивним, правда !? Ви відкинете моделі як "нестабільні"?

3
Внутрішня петля, ймовірно, призведе до різного вибору гіперпараметрів. Ви не використовуєте вкладені перехресні перевірки для вибору гіперпараметрів, лише щоб отримати хорошу оцінку помилки генералізації (з найкращими можливими гіперпараметрами). Вкладений cv використовується для вибору між тим чи іншим алгоритмом. Дивіться stats.stackexchange.com/questions/136296/… або stats.stackexchange.com/questions/65128/… (серед інших)
Жак Вайнер

О, я бачу, це має повний сенс! Я думав, що люди використовують це по-різному. Я думаю, що тоді я можу закрити це питання.

2

2 повторення у зовнішній петлі означають, що ви повторите своє 5-кратне резюме 2 рази на цілій поїздці. Кожен раз поділ на складки буде різним.

Це в основному використовується для кращих оцінок продуктивності моделі, як, наприклад, проведення статистичних тестів на те, чи є одна модель статистично достовірно кращою за іншу.

Вкладене резюме не є критично важливим, якщо ваш набір даних великий і без видатків. Якщо у ваших даних є пережитки, то ефективність перехресної перевірки може бути кардинально різною залежно від того, у яку складку / складки перебувають ці видатки. Тому ви повторюєте резюме кілька разів.


Гарна думка. У традиційному підході (тест / тренування розбиття, а потім рейтинг CV на навчальному наборі) у вас є лише 1 раз для оцінки моделі, тоді як у 5х2 CV середня ефективність може бути розрахована з двох різних складок.
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.