Здається, що там є суперечливі поради щодо того, як поводитись із порівнянням помилок поїзда та тесту, особливо коли між ними є розрив. Здається, дві школи думок, які мені здаються конфліктними. Я шукаю, щоб зрозуміти, як примирити їх (або зрозуміти, чого мені тут не вистачає).
Думка № 1: Розрив між роботою поїзда та випробувального набору не свідчить про перевищення рівня
По-перше, (також обговорювалося тут: як порівняння тренувань та помилок тестування може бути свідченням переозброєння? ), Ідея про те, що різниця між поїздом і тестовим набором не може вказувати на перевитрату. Це узгоджується з моїм практичним досвідом, наприклад, з методами ансамблевого дерева, де навіть після перехресної налаштування гіперпараметрії розрив між помилкою поїзда та тесту може залишатися дещо великим. Але (незалежно від типу моделі), поки помилка перевірки не відновлюється, ви добре. Принаймні, це мислення.
Думка № 2: Коли ви побачите проміжок між поїздом і тестовою роботою: Робіть речі, які б боролися з надмірною технікою
Однак, тоді ви знайдете поради з дуже хороших джерел, які дозволяють припустити, що розрив між помилкою поїзда та випробування є свідченням перевиконання. Ось приклад: розмова "Горіхи та болти глибокого навчання" Ендрю Нґ (фантастична розмова) https://www.youtube.com/watch?v=F1ka6a13S9I, де приблизно в такт 48:00 він малює блок-схему що говорить: "якщо помилка вашого поїзда низька і ваша помилка набору поїздів висока, вам слід додати регуляризацію, отримати більше даних або змінити архітектуру моделі" ... які всі дії, які ви можете вжити для боротьби з насадкою.
Що приводить мене до ... : Я щось тут пропускаю? Це специфічне для моделі правило (як правило, більш прості моделі мають менший розрив між поїздом і тестом)? Або просто дві різні школи думки?