Поїзд проти тестової помилки та її зв'язок із Overfitting: примирення конфліктних порад


14

Здається, що там є суперечливі поради щодо того, як поводитись із порівнянням помилок поїзда та тесту, особливо коли між ними є розрив. Здається, дві школи думок, які мені здаються конфліктними. Я шукаю, щоб зрозуміти, як примирити їх (або зрозуміти, чого мені тут не вистачає).

Думка № 1: Розрив між роботою поїзда та випробувального набору не свідчить про перевищення рівня

По-перше, (також обговорювалося тут: як порівняння тренувань та помилок тестування може бути свідченням переозброєння? ), Ідея про те, що різниця між поїздом і тестовим набором не може вказувати на перевитрату. Це узгоджується з моїм практичним досвідом, наприклад, з методами ансамблевого дерева, де навіть після перехресної налаштування гіперпараметрії розрив між помилкою поїзда та тесту може залишатися дещо великим. Але (незалежно від типу моделі), поки помилка перевірки не відновлюється, ви добре. Принаймні, це мислення.

Думка № 2: Коли ви побачите проміжок між поїздом і тестовою роботою: Робіть речі, які б боролися з надмірною технікою

Однак, тоді ви знайдете поради з дуже хороших джерел, які дозволяють припустити, що розрив між помилкою поїзда та випробування є свідченням перевиконання. Ось приклад: розмова "Горіхи та болти глибокого навчання" Ендрю Нґ (фантастична розмова) https://www.youtube.com/watch?v=F1ka6a13S9I, де приблизно в такт 48:00 він малює блок-схему що говорить: "якщо помилка вашого поїзда низька і ваша помилка набору поїздів висока, вам слід додати регуляризацію, отримати більше даних або змінити архітектуру моделі" ... які всі дії, які ви можете вжити для боротьби з насадкою.

Що приводить мене до ... : Я щось тут пропускаю? Це специфічне для моделі правило (як правило, більш прості моделі мають менший розрив між поїздом і тестом)? Або просто дві різні школи думки?

Відповіді:


4

Я не думаю, що це суперечлива порада. Що нас насправді цікавить, це хороша позабіржова ефективність, а не зменшення розриву між навчанням та результатами тестового набору. Якщо продуктивність тестового набору є репрезентативною за вибірковими показниками (тобто тестовий набір достатньо великий, незабруднений і є репрезентативним зразком даних, до яких буде застосована наша модель), то поки ми отримаємо хороші показники на тестовий набір ми не переоснащуємо, незалежно від розриву.

Однак часто, якщо є великий розрив, це може свідчити про те, що ми могли б отримати кращі показники тестового набору з більшою регуляризацією / введенням більшої упередженості в модель. Але це не означає, що менший проміжок означає кращу модель; це просто те, що якщо у нас невеликий розрив між навчанням та результатами тестового набору, ми знаємо, що напевно не надто придатні, тому додавання регуляризації / введення більшої упередженості в модель не допоможе.


Цікавий момент. Підсумовуючи "відсутність розриву між поїздом і випробуванням", безумовно, немає переоснащення, але "деякий проміжок між поїздом і випробуванням" може або не може означати перевиконання. Якщо ми підемо за цією логікою, блок-схема потоку в розмові Ендрю Нґ здається дещо оманливою: це не настільки глухо, як підказує слайд, тобто якщо у вас є розрив, ви можете спробувати регуляризацію або отримання більше даних, але це може не допомогти. Чи погодились би ви?
ednaMode

1
З мого досвіду, так, я погодився б.
rinspy

"Підсумовуючи відсутність розриву між поїздом і випробувальним засобом, безумовно, жодне надмірне оснащення" може не обов'язково дотримуватися. Коли у вас буде нескінченна кількість даних, ви отримаєте нульовий проміжок між поїздом і тестом, навіть якщо модель перевищує. Тому я думаю, що для того, щоб ця заява була дійсною, вам потрібно ще кілька припущень.
LKS

@LKS Я не впевнений, що ти маєш на увазі під надбавкою тут. Ефективність поза вибіркою завжди буде меншою або дорівнює продуктивності в вибірці, якщо вважати, що розподіл даних залишається постійним. Тож нульовий розрив - наш найкращий сценарій. Як може бути надмірний нульовий проміжок?
rinspy

@rinspy, якщо ви визначаєте перевиконання як числовий проміжок між даними тренінгу та тестування, то ваше твердження правильне. Але я хотів би більше розмірковувати про те, що робить модель. Наприклад, у нас є поліноміальна функція 3 ступеня, і результат буде містити невеликий гауссовий шум. Якщо ми маємо кінцеві зразки і використовуємо поліном 5-го ступеня для підгонки, є велика між результатами вибірки (прогнозування) та виходу з неї. Але якщо ми зможемо зробити майже нескінченні зразки, модель, яка запам'ятовується, матиме нульову помилку вибірки.
LKS
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.