Математичне / алгоритмічне визначення для накладання


18

Чи є математичне чи алгоритмічне визначення надфітфінгу?

Часто даними визначеннями є класичний двовимірний графік точок з лінією, що проходить через кожну точку, і крива втрати валідації раптово піднімається вгору.

Але чи є математично суворе визначення?

Відповіді:


22

Так, є (дещо більш суворе) визначення:

Враховуючи модель із набором параметрів, можна сказати, що модель переозброєна даними, якщо після певної кількості навчальних кроків помилка навчання продовжує зменшуватися, тоді як помилка поза вибіркою (тесту) починає зростати.

введіть тут опис зображення У цьому прикладі вибірка (тест / перевірка) помилка спочатку зменшується синхронно з помилкою поїзда, потім вона починає зростати близько 90-ї епохи, тобто коли починається перевиконання

Ще один спосіб поглянути на це з точки зору упередженості та дисперсії. Помилка вибірки для моделі може бути розкладена на два компоненти:

  • Зміщення: помилка через те, що очікуване значення оціночної моделі відрізняється від очікуваного значення справжньої моделі.
  • Варіант: Помилка через те, що модель чутлива до невеликих коливань у наборі даних.

Переобладнання виникає, коли ухил низький, але дисперсія велика. Для набору даних де справжня (невідома) модель:X

Y=f(X)+ϵ - - невідмінний шум у наборі даних, при цьому і , ϵE(ϵ)=0Var(ϵ)=σϵ

і орієнтовна модель:

Y^=f^(X) ,

то помилка тесту (для точки тесту даних ) може бути записана як:xt

Err(xt)=σϵ+Bias2+Variance

з та Bias2=E[f(xt)f^(xt)]2Variance=E[f^(xt)E[f^(xt)]]2

(Власне кажучи, ця декомпозиція застосовується у випадку регресії, але подібна декомпозиція працює для будь-якої функції втрат, тобто у випадку класифікації).

Обидва вищенаведені визначення пов'язані зі складністю моделі (вимірюється за кількістю параметрів у моделі): Чим вище складність моделі, тим більше шансів на те, що відбудеться переозброєння.

Дивіться розділ 7 Елементи статистичного навчання щодо суворої математичної обробки теми.

введіть тут опис зображення Компромісія зміщення та відхилення (тобто перевиконання) збільшується зі складністю моделі. Взято з ESL Глава 7


1
Чи можливе зменшення як помилок навчання, так і тестових помилок, але модель все-таки переповнюється? На мій погляд, розбіжність у навчанні та помилках випробувань демонструє перевиконання, але перевиконання не обов'язково тягне за собою розбіжність. Наприклад, НН, яка вчиться відрізняти злочинців від не злочинців, розпізнаючи білий фон тюремних фотографій, є надмірним, але помилки навчання та тестування, ймовірно, не розходяться.
yters

@ yters в цьому випадку, я не думаю, що був би якийсь спосіб виміряти перевитрату, яка виникає. Все, до чого ви маєте доступ, - це дані навчання та тестування, і якщо обидва набори даних демонструють ту саму функцію, якою NN користується (білий фон), то це просто дійсна функція, якою слід скористатися, а не обов’язково переозброювати. Якщо ви не хотіли цієї функції, вам доведеться включити її варіанти у свої набори даних.
Келвін Годфрі

1
@yters ваш приклад - це те, що я вважаю "соціальним переоснащенням": Математично модель не є надмірною, але є деякі зовнішні соціальні міркування, які призводять до того, що передбачувач не працює добре. Більш цікавий приклад - деякі змагання Kaggle та різні набори відкритих даних, такі як Boston Housing, MNIST тощо. Сама модель може бути не надто придатною (з точки зору упередженості, дисперсії тощо), але є дуже багато знання про проблему у спільноті загалом (результати попередніх команд та наукових робіт, публічно розміщені ядра тощо), що призводять до перевиконання.
Skander H. - Відновіть Моніку

1
@yters (продовження), тому теоретично окремий набір даних перевірки (окрім набору тестових даних) повинен залишатися у «сховищі» і не використовуватися до остаточної перевірки.
Skander H. - Відновіть Моніку

1
@CalvinGodfrey ось більш технічний приклад. Скажімо, у мене є двійковий набір даних класифікації, який рівномірно розподілений між двома класами, а потім додає шум класифікації від досить незбалансованого розподілу Бернуллі, тому набір даних стає перекошеним у бік одного з класів. Я розділив набір даних на поїзд і тестую, і досягну високої точності як частково через незбалансований розподіл. Однак точність моделі не є настільки високою для істинної класифікації даних, оскільки модель вивчила перекошений розподіл Бернуллі.
yters
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.