Неправильне використання перехресної перевірки (звітність про ефективність найкращого значення гіперпараметра)


30

Нещодавно я натрапив на документ, який пропонує використовувати класифікатор k-NN на певному наборі даних. Автори використовували всі наявні вибірки даних для здійснення k-кратної перехресної перевірки для різних значень k та звітування про результати перехресної перевірки найкращої конфігурації гіперпараметра.

Наскільки мені відомо, цей результат є необ'єктивним, і вони повинні були зберегти окремий тестовий набір для отримання оцінки точності на зразках, які не використовуються для оптимізації гіперпараметрів.

Чи правий я? Чи можете ви надати кілька посилань (бажано наукових робіт), які описують це неправильне використання перехресної перевірки?


3
Зауважте, що замість окремого тестового набору можна використовувати так звану вкладену перехресну перевірку . Якщо ви шукаєте цей термін на цьому сайті, ви знайдете безліч дискусій. Зокрема , шукайте відповіді від @DikranMarsupial, який є одним із авторів другого документу, цитованого у прийнятій відповіді.
амеба каже, що повернеться Моніка

Відповіді:


29

Так, є проблеми зі зведенням лише результатів резюме в k-кратному рейтингу. Ви можете використовувати, наприклад, наступні три публікації для своїх цілей (хоча, звичайно, є і більше), щоб орієнтувати людей на правильний напрямок:

Мені особисто це подобається, тому що вони намагаються викладати питання більш простою англійською мовою, ніж математикою.


2
Точніше, проблема полягає не в повідомленні результатів перехресної перевірки, а у звіті про оцінки ефективності, які були частиною процесу відбору / оптимізації.
cbeleites підтримує Моніку

1
Також зауважте, що документ Bengio & Grandvalet є дещо менш актуальним, якщо питання тут полягає у виконанні конкретної моделі, що навчається на певному наборі даних - вони обговорюють ефективність за тим самим алгоритмом поїзда, який застосовується до нових наборів даних із тієї ж сукупності (для чого потрібно включити відмінність між різними наборами даних одного розміру, відібраних з одного і того ж джерела - що не є проблемою, якщо ми говоримо про ефективність прогнозування моделі, підготовленої на певному наборі даних).
cbeleites підтримує Моніку

1
@cbeleites Правильно помічено: у своєму першому проекті відповіді я випадково вибрав третє посилання замість другого, але пізніше більше не хотів видаляти інформацію з уже прийнятої відповіді - саме тому я замість цього додав другу між (див. версії відповіді). Тим не менш, я думаю, що питання в основному полягало в повідомленні про помилку, і ці документи вказують на деякі речі, які можна зробити неправильно з резюме в цьому плані дуже добре IMHO.
geekoverdose
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.