Як знати, що модель почала переозброювати?


12

Я сподіваюся, що наступні уривки дадуть зрозуміти, про що піде моє питання. Це з http://neuralnetworksanddeeplearning.com/chap3.html

Потім навчання поступово сповільнюється. Нарешті, приблизно в епоху 280 точність класифікації в значній мірі перестає покращуватися. Пізніші епохи просто бачать невеликі стохастичні коливання поблизу значення точності в епоху 280. Порівнюйте це з попереднім графіком, де вартість, пов’язана з навчальними даними, продовжує плавно знижуватися. Якщо ми просто подивимось на цю вартість, виявиться, що наша модель все ще стає «кращою». Але результати точності випробувань показують, що поліпшення є ілюзією. Як і модель, яку Фермі не любив, те, що наша мережа дізнається після епохи 280, вже не узагальнює дані тесту. І тому це не корисне навчання. Ми кажемо, що мережа є надмірною або перетренованою поза епохою 280.

Ми тренуємо нейронну мережу, і вартість (на дані тренінгу) знижується до епохи 400, але точність класифікації стає статичною (забороняючи кілька стохастичних коливань) після епохи 280, тому ми робимо висновок, що модель надмірно підходить для даних про навчання після епохи 280.

Ми можемо бачити, що вартість тестових даних поліпшується приблизно до епохи 15, але після цього вона фактично починає погіршуватися, навіть якщо вартість даних про навчання продовжує покращуватися. Це ще одна ознака того, що наша модель переобладнана. Однак це є головоломкою, а чи варто вважати епоху 15 чи епоху 280 точкою, в якій надмірна підготовка домінує над навчанням? З практичної точки зору, нас дійсно цікавить - це підвищення точності класифікації на тестових даних, тоді як вартість тестових даних не більше ніж проксі для точності класифікації. І тому має найбільш сенс вважати епоху 280 точкою, за якою перевиконання домінує у навчанні в нашій нейронній мережі.

На відміну від точності класифікації тестових даних порівняно з витратами на навчання раніше ми тепер ставимо витрати на тестові дані проти витрат на навчання.

Потім книга продовжує пояснювати, чому 280 - це правильна епоха, з якої почалося надмірне оснащення. З цим я маю проблему. Я не можу обернути голову навколо цього.

Ми просимо модель мінімізувати витрати, і, таким чином, вартість - це показник, який вона використовує як міру власної сили, щоб правильно класифікувати. Якщо ми розглядаємо 280 як правильну епоху, коли розпочався переозброєння, чи не в такий спосіб ми створили упереджену модель, яка хоч і є кращим класифікатором на конкретних тестових даних, але тим не менше приймає рішення з низькою впевненістю і, отже, більш схильна до відхилення з результатів, показаних на даних тесту?


Модель не знає тестового набору. Він виступає як проксі для небачених даних. Тому, якщо він походить від репрезентативного розповсюдження, ви можете використовувати його, щоб визначити, коли виникає переозброєння. Якщо ви хочете, ви можете створити ще один набір протриманих і побачити, чи відповідає це припущення.
Емре

Що ви маєте на увазі під прийняттям рішень з низькою впевненістю?
Коник

@Grasshopper Скажімо, модель намагається передбачити один з 4 класів {A, B, C, D}. Мітки даних тестів (по порядку) є (A, B, C, D). Тепер в одному випадку модель викидає ймовірності як (я позначаю прогнози разом) ((0,28, 0,24, 0,24, 0,24) (A), (0,24,0,28,0,24,0,24) (B), (0,24,0,24, 0,28,0,24) (C), (0,24,0,24,0,24,0,28) (D)), а в іншій модель кидає ((1,0,0,0) (A), (0,1,0,0) (В), (0,24,0,26,0,25,0,25) (В), (0,0,0,1) (D)). Що я маю на увазі під низькою впевненістю, це перша інстанція. Зверніть увагу, точність класифікації в першу чергу становить 100%, але вартість вища
Нітін Сівач

@Grasshopper У двох словах. Перший екземпляр моделі створюється після 280 епох (див. Поставлене запитання), а другий екземпляр моделі створюється після 15 епох. Тепер книга продовжує запропонувати епоху 280 як ту, де почалося надмірне пристосування. Мені важко проковтнути це. будь-яка допомога чи думки, які ви можете надати, дуже вдячні.
Нітін Сівач

Відповіді:


6

Скажімо, ми хочемо передбачити, чи студент влаштує співбесіду на основі її резюме.

Тепер, припустимо, ми готуємо модель з набору даних 10 000 резюме та їх результатів.

Далі ми випробовуємо модель на оригінальному наборі даних, і вона прогнозує результати з 99% точністю ... вау!

Але зараз приходить погана новина.

Коли ми запускаємо модель на новому ("небаченому") наборі резюме, ми отримуємо лише 50% точність ... е-о!

Наша модель не добре узагальнює наші тренінгові дані для небачених даних.

Це відомо як надмірне оснащення, і це поширена проблема в машинному навчанні та науці даних.

Переозброєння V / s Underfitting

Ми можемо зрозуміти переоцінку краще, дивлячись на протилежну проблему, недостатність.

Недостатня обробка виникає, коли модель занадто проста - поінформована занадто мало можливостей або занадто багато регульована - що робить її негнучкою для навчання з набору даних.

Прості студенти, як правило, мають меншу розбіжність у своїх прогнозах, але більше схиляються до неправильних результатів (див.: Компроміс з відхиленням відхилення).

З іншого боку, складні учні, як правило, мають більше розбіжностей у своїх прогнозах.

І упередженість, і дисперсія - це форми помилок передбачення в машинному навчанні.

Як правило, ми можемо зменшити помилку від упередженості, але може збільшити помилку внаслідок відхилення в результаті, або навпаки.

Цей компроміс між занадто простим (велике зміщення) і надто складним (велика дисперсія) є ключовим поняттям у статистиці та машинному навчанні та впливає на всі керовані алгоритми навчання.


2

Те, що я навчився важким способом, - це побудувати криві навчання, я знаю, це не так весело, як написання машинного коду навчання самостійно, але важливо візуально зрозуміти, що відбувається.

Правило визначення великого пальця полягає в тому, що надмірне розміщення відбувається, коли точність вашого поїзда постійно покращується, а точність перевірки перестає покращуватися (або навіть починає погіршуватися).

Найпростішим рішенням, щоб уникнути зайвої придатності, є раннє припинення (припиняйте тренування, як тільки справи виглядають погано). Звичайно, найпростішим рішенням є дорога вартість: це не найкраще рішення. Регуляризація та випадання - хороший інструмент для боротьби з пристосуванням, але це вже інше питання :)

Сподіваюся, це допомагає


2

Як зазначає джерело, яке ви цитуєте, "вартість тестових даних не більше ніж проксі для точності класифікації". Ви можете запитати, чому ми повинні використовувати проксі, чому не використовувати точність безпосередньо? Відповідь полягає в тому, що вам потрібно мінімізувати функцію витрат щодо ваг та ухилів. Тому він повинен бути диференційованою функцією ваг і ухилів. Точність не є диференційованою функцією, і тому її не можна використовувати безпосередньо. Але оскільки в кінцевому підсумку ви дбаєте про точність, як ви самі проілюстрували вище (... будь ласка, зверніть увагу, що точність класифікації в першу чергу становить 100%, і все-таки вартість вище ...), ви визначаєте надмірну обробку виходячи з точності тесту набір.


0

Щоб зрозуміти, що означає надмірний набір і як це впливає на точність моделі, потрібно зрозуміти зміщення - компромісність.

Недостатня кількість, а також надмірне оснащення - це дві різні проблеми, безпосередньо пов'язані з проблемами упередженої дисперсії. Завжди важливо зрозуміти взаємозв'язок між трьома різними факторами і тим, як ці фактори пов'язані з проблемами зміщення (переозброєння - недостатність):

1- розмір моделі. Кількість параметрів

2 - кількість даних, доступних для навчання. Кількість навчальних зразків.

3- кількість ітерацій. тренувальні ітерації.

Прямий зв’язок будь-якого з цих факторів із недостатнім підходом проблем, не дивлячись на інших, завжди призведе до неправильних висновків.

Через розуміння цих факторів та зв’язування теми за допомогою використання математичних рівнянь, щоб уникнути проблем із переозброєнням та недостатністю, складне завдання. Більше того, це залежить від завдання, люди використовують прості методи виявлення та уникнення перевиконання. Найпростіший спосіб - розділити дані на три різні частини, навчання, перевірку та тестування. Тестування не слід чіпати. Використовуйте навчальний набір для тренування мережі та набір перевірки для тестування мережі після кожної ітерації або декількох ітерацій. Теоретично ви побачите, що похибка в наборі перевірки поступово зменшується для перших N ітерацій, а потім буде стабільною для дуже мало ітерацій, а потім починає збільшуватися. Коли помилка починає зростати, ваша мережа починає переповнювати дані тренувань, і тренувальний процес повинен бути припинений.

Примітка: значення N дуже пов'язане з трьома перерахованими вище факторами. Завжди є доброю практикою встановити демо-навчальний набір і тестувати різні моделі, дані тренувань. Ви побачите, що чим більша модель - тим менше даних про тренування, тим менша N. Чим менша модель - тим більше даних про навчання, тим більше N. Примітка: будьте обережні, використовуючи невеликі моделі, що мають неполадки.


Ви сказали: "Теоретично ви побачите, що помилка набору перевірки поступово зменшується для перших N ітерацій, а потім буде стабільною для дуже мало ітерацій, а потім почне збільшуватися". Що ви маєте на увазі під помилкою. Саме це питання, яке я порушив у питанні. Відповідь - 15, якщо я вважаю вартість як міру помилки, і 280, якщо я приймаю точність класифікації як міру помилки
Нітін Сівач

будь ласка, зверніть увагу на виправлення у вищенаведеному коментарі: Відповідь на те, коли надбавка починається, - це епоха 15, якщо я вважаю вартість мірилом помилки та епоху 280, якщо я приймаю точність класифікації як міру помилки
Нітін Сівач

Помилка набору валідацій
Башар Хаддад

і міра цієї помилки є? (100 - Точність класифікації) або вартість. Я розумію помилку в наборі засобів перевірки у зв'язку з точністю класифікації. Але саме про це я і запитую. Чому б не вартість? Будь ласка, зверніться до коментарів, які я зробив у відповідь Grasshopper на оригінальне запитання
Нітін Сівач
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.