Тестовий набір і набір перехресної перевірки мають різні цілі. Якщо ви кинете будь-яку, ви втратите її переваги:
Ви не можете використовувати набір крос-валідації для точного вимірювання продуктивності вашої моделі, оскільки ви навмисно налаштуєте свої результати, щоб отримати найкращий можливий показник, можливо, сотні варіантів ваших параметрів. Отже, результат перехресної перевірки може бути надто оптимістичним.
З цієї ж причини ви не можете скинути набір перехресної перевірки і використовувати тестовий набір для вибору гіперпараметрів, оскільки тоді ви майже гарантовано переоцінюєте, наскільки хороша ваша модель. В ідеальному світі ви використовуєте тестовий набір лише один раз або використовуєте його "нейтрально" для порівняння різних експериментів.
Якщо ви перекреслите валідацію, знайдіть найкращу модель, а потім додайте в тестові дані для навчання, можливо, (а в деяких ситуаціях, можливо, цілком ймовірно), ваша модель буде вдосконалена. Однак у вас немає жодного способу бути впевненим у тому, що це насправді сталося, і навіть якщо це відбулося, ви не маєте жодної неупередженої оцінки того, що таке новий виступ.
Зважаючи на багато змагань Kaggle, мій досвід полягає в тому, що налаштування до тестового набору через його надмірне використання - це справжня річ, і це впливає на ці змагання значною мірою. Часто зустрічається група конкурентів, які піднялися на загальнодоступні лідери та відібрали свою найкращу модель для тестування (загальнодоступна таблиця - це тестовий набір), хоча вони не є настільки ретельними в їх перехресній валідації. . . Ці конкуренти скидають лідери, коли в кінці буде представлений новий тестовий набір.
Один з розумних підходів - повторне використання (поїзд + рейтинг) даних для перепідготовки за допомогою знайдених гіперпарам перед тестуванням. Таким чином, ви отримуєте тренування на більшій кількості даних, і ви все одно отримуєте незалежний показник ефективності.
Якщо ви хочете отримати більше користі від перехресної перевірки, звичайним підходом є перехресне підтвердження k-кратної . Поширений трюк в змаганнях Kaggle - використовувати перехресну перевірку k-кратного перекладу, а замість того, щоб повторно поєднувати дані у більший навчальний набір (поїзд + cv), щоб зібрати або скласти результати резюме в мета-модель.
Нарешті, завжди переконайтеся, що ваші розбиття для перевірки та тестування є надійними щодо можливого співвідношення у вашому наборі даних.