Найпростіший спосіб пояснити це тим, що регуляризація допомагає не підходити до шуму, але це не дуже сприяє визначенню форми сигналу. Якщо ви думаєте про глибоке навчання як гігантський аппроксиматор славної функції, то розумієте, що для визначення форми складного сигналу йому потрібно багато даних.
Якби не було шуму, то зростаюча складність NN призведе до кращого наближення. Не було б жодного штрафу до розміру NN, більший був би кращий у кожному випадку. Розглянемо наближення Тейлора, більше термінів завжди краще для неполіномічної функції (ігнорування числових питань точності).
Це руйнується при наявності шуму, тому що ви починаєте підлаштовуватися під шум. Отож, тут на допомогу приходить регуляризація: вона може зменшити розміщення шумів, тим самим дозволяючи нам створити більший NN, щоб відповідати нелінійним проблемам.
Наступна дискусія не є важливою для моєї відповіді, але я додав частково, щоб відповісти на деякі коментарі та мотивувати основну частину відповіді вище. В основному, решта моєї відповіді - це як французькі пожежі, які виходять з їжею з гамбургер, ви можете пропустити це.
(ІР) відповідний випадок: поліноміальна регресія
Давайте розглянемо іграшковий приклад поліноміальної регресії. Це також досить хороший аппроксиматор для багатьох функцій. Ми розглянемо функцію в області x ∈ ( - 3 , 3 ) . Як видно з його серії Тейлор нижче, розширення 7-го порядку вже досить добре підходить, тому ми можемо очікувати, що поліном порядку 7+ повинен бути дуже гарним:гріх( х )x ∈ ( - 3 , 3 )
Далі ми підходимо поліноми з прогресивно вищим порядком до невеликого дуже галасливого набору даних із 7 спостережень:
Ми можемо спостерігати, що нам багато людей знають про поліноми: вони нестабільні, і починають дико коливатися зі збільшенням порядку поліномів.
Однак проблема полягає не в самих поліномах. Проблема - шум. Коли ми підлаштовуємо поліноми до галасливих даних, частина пристосування - це шум, а не сигнал. Ось такі ж точні поліноми підходять до одного і того ж набору даних, але з повністю видаленим шумом. Підходить чудово!
гріх( х )
Також зауважте, що поліноми вищого порядку не підходять так само, як і порядок 6, оскільки недостатньо спостережень для їх визначення. Отже, давайте розглянемо, що відбувається зі 100 спостереженнями. На графіку нижче ви бачите, як більший набір даних дозволив нам помістити поліноми вищого порядку, тим самим досягнувши кращого пристосування!
Чудово, але проблема полягає в тому, що ми зазвичай маємо справу з галасливими даними. Подивіться, що станеться, якщо ви підходите до 100 спостережень за дуже галасливими даними, дивіться таблицю нижче. Ми повернулися до першого: поліноми вищого порядку створюють жахливі коливальні пристосування. Таким чином, збільшення набору даних не дуже допомогло підвищити складність моделі для кращого пояснення даних. Це знову ж таки, тому що складна модель краще підходить не тільки до форми сигналу, але і до форми шуму.
Нарешті, спробуємо трохи кульгаву регуляризацію цієї проблеми. На графіку нижче представлена регуляризація (з різними покараннями), застосована для 9 поліноміальної регресії. Порівняйте це з порядком (потужністю) 9 полінома, що підходить вище: при відповідному рівні регуляризації можна встановити поліноми вищого порядку до галасливих даних.
Про всяк випадок, коли це було не ясно: я не пропоную використовувати поліноміальну регресію таким чином. Поліноми добре підходять для місцевих припадків, тому багатозначний многочлен може бути хорошим вибором. Часто підходити до них весь домен - це погана ідея, оскільки вони чутливі до шуму, як це було видно із сюжетів вище. Незалежно від того, чи є шум чисельним чи від якогось іншого джерела, це не так важливо в цьому контексті. шум - шум, а поліноми будуть реагувати на нього пристрасно.