Переповнення / недостатність розміру даних


11

На графіку нижче

  • x-ось => Розмір набору даних
  • y-ось => Оцінка перехресної перевірки

введіть тут опис зображення

  • Червона лінія призначена для навчальних даних

  • Зелена лінія призначена для тестування даних

У підручнику, про який я говорю, автор говорить, що точка, де червона та зелена лінія перетинаються, означають,

Збір більше даних навряд чи збільшить ефективність узагальнення, і ми знаходимось у регіоні, в якому ми, ймовірно, недостатні дані. Тому є сенс спробувати модель з більшою місткістю

Я не можу повністю зрозуміти значення жирної фрази і як це відбувається.

Вдячний за будь-яку допомогу.


Що таке червоні та зелені лінії?
Касра Маншаї

1
@KasraManshaei: Я оновив питання.
tharindu_DG

1
Якщо можливо, додайте посилання до підручника. Допоможе нам краще зрозуміти відповідь та контекст :)
Dawny33

@ Dawny33: Це відео-посібник, і завантаження в нього може порушити проблеми з авторським правом. :)
tharindu_DG

Відповіді:


6

Отже, недостатність означає, що ви все ще маєте можливості для вдосконалення свого навчання, в той час як перевиконання означає, що ви використали потенціал більше, ніж потрібно для навчання.

Зелена зона - це те, де зростає помилка тестування, тобто вам слід продовжувати надавати потужність (або точки даних, або складність моделі), щоб отримати кращі результати. Що більше зеленої лінії, то вона стає більш рівною, тобто ви досягаєте тієї точки, коли наданої ємності (яка є даними) достатньо, і краще спробувати надати інший тип ємності, що є складністю моделі.

Якщо це не покращить ваш тестовий бал або навіть зменшить його, це означає, що комбінація Data-Complexity була якось оптимальною, і ви можете припинити навчання.


Дякую за відповідь. У мене мало неясностей. - В кінці графіка збіглася зелена та червона лінія. Чи не означає це, що ми маємо достатньо даних для нашої моделі? - Чи можна отримати кращу точність з тестового набору, ніж навчальний набір? - Скажемо, що ми отримали кращу модель і як повинен виглядати цей графік?
tharindu_DG

1
"Чи не означає це, що ми маємо достатньо даних для нашої моделі?" Саме це я написав. Так, у вас є достатня кількість даних, тому, якщо ви хочете вдосконалитись, вам слід спробувати більшу складність. Даних достатньо. "Чи можливо отримати кращу точність з тестового набору, ніж навчальний набір?" Я ніколи такого не бачив. Це може статися в одному експерименті, але не в цілому. Це питання можна перекласти на "Чи можу я знати більше, ніж те, що знаю?" а відповідь - "Звичайно, ні!"
Kasra Manshaei

1
"Скажемо, що ми отримали кращу модель і як повинен виглядати цей графік?" Я припускаю (ви спробуйте і дайте мені знати, чи я правий :)), що або тренування, і тест покращують, або не відповідають цим. Можливо, що тренінг покращується і тестові падіння, але не навпаки, а також можливо, що обидва вдосконалюються на деякий час, а потім тест падає, що називається Overfitting. Ви повинні припинити навчання на
точковому

5

Хоча Касра Маншаї дає хорошу загальну відповідь (+1), я хотів би дати легкий для розуміння приклад.

Подумайте про дуже просту проблему: Встановлення функції . Для цього ви виймаєте модель із класу многочленів. На думку аргументу, скажімо, ви приймаєте многочлен ступеня 0. Потужність цієї моделі дуже обмежена, оскільки вона може відповідати лише константам. В основному це буде здогадуватися середнє значення (звичайно, залежить від функції помилки, але тримати це просто). Тому порівняно швидко ви отримаєте досить хорошу оцінку, які найкращі параметри для цієї моделі. Ваша помилка тестування та навчання буде майже однаковою, незалежно від того, скільки прикладів ви додасте. Проблема полягає не в тому , що у вас немає достатньо даних, проблема полягає в тому , що ваша модель не досить потужний: Ви underfit .f:[0,1]R

Тож давайте підемо навпаки: скажімо, у вас 1000 точок даних. Знаючи трохи математики, ви вибираєте многочлен ступеня 999. Тепер ви можете ідеально вмістити дані тренувань. Однак ваші дані можуть занадто ідеально відповідати даним. Наприклад, дивіться (з мого блогу )

введіть тут опис зображення

У цьому випадку у вас є інші моделі, які також ідеально підходять до даних. Очевидно, синя модель здається неприродною між точками даних. Сама модель, можливо, не зможе добре засвоїти тип розподілу, тому обмеження моделі на щось простіше може насправді допомогти. Це може бути прикладом надягання .


1
Дуже приємно @moose! (+1) для розуміння пояснення
Касра Маншаї

0

У вашому випадку у вас є - дуже невеликий (або ні) проміжок між кривими поїздів і випробувань, що вказує на те, що модель має високий ухил / недостиг, рішення: потрібно вибрати більш складну модель; - для завершення потрібно додати протилежний випадок, коли розрив між кривими поїзда та випробування дуже великий, що вказує на велику дисперсію / переозброєння, рішення: а) продовжувати збільшувати розмір набору даних; б) вибрати менш складну модель, в) зробити регуляризацію.


0

Ви можете виконати будь-яке / всі наступне:

1) змінити функції, які ви подаєте, у модель

2) вибрати іншу модель, з якою працюватимеш

3) завантажуйте більше даних у модель (можливо, це не варіант для вас, але зазвичай це варіант)

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.