Чому регуляризація не вирішує голод щодо даних Deep Neural Nets?


37

Проблема, яку я часто зустрічався в контексті Нейронних мереж в цілому, і Глибоких нейронних мереж, зокрема, полягає в тому, що вони "голодні", тобто вони не працюють добре, якщо у нас не є великий набір даних з якою тренувати мережу.

Я розумію, що це пов’язано з тим, що NNets, особливо Deep NNets, мають велику кількість ступенів свободи. Отже, як модель, NNet має дуже велику кількість параметрів, і якщо кількість параметрів моделі велике відносно кількості балів даних тренувань, спостерігається підвищена тенденція до надмірної придатності.

Але чому це питання не вирішується регуляризацією? Наскільки я знаю, NNets можуть використовувати регуляризацію L1 та L2, а також мають свої власні методи регуляризації, такі як випадання, які можуть зменшити кількість параметрів у мережі.

Чи можемо ми вибрати наші способи регуляризації таким чином, щоб вони нав'язували парситивність та обмежували розмір мережі?


Щоб уточнити своє мислення: Скажімо, ми використовуємо велику Deep NNet, щоб спробувати моделювати наші дані, але набір даних невеликий і насправді можна моделювати за допомогою лінійної моделі. Тоді чому б ваги мережі не збігаються таким чином, що один нейрон імітує лінійну регресію, а всі інші сходяться до нулів? Чому регуляризація не допомагає в цьому?


7
"Тоді чому б ваги мережі не збігалися таким чином, що один нейрон імітує лінійну регресію, а всі інші сходяться до нулів? Чому регуляризація не допомагає в цьому?" Я насправді думаю, що це дозволить зробити справді цікавий документ: побудувати цю мережу та проблему, а потім оцінити, що відбувається.
Sycorax каже, що повернемо Моніку

Ну, у вас виникає проблема зменшення градієнтів пізніше в більш глибоких шарах мереж, навіть коли ви регулюєте їх. Ось чому люди використовують нормалізацію партії, щоб ефективно робити те, що ви описуєте. Інші підходи вже враховують це (як LSTM), і є речі, які можуть допомогти боротися з голодуванням, як, наприклад, випадання.
Бенджамін Груенбаум


як @cliffab відповідає нижче, регуляризація - це не те, що потрібно для підвищення продуктивності. Простіше кажучи, купа повернутих зображень котів - це не те саме, що зображення одного кота з регуляризацією.
seanv507

1
Я зовсім не здивований. З тим часовим рядом, з яким я маю справу на роботі, я ще не знайду методу, який б'є старі методи часового ряду сколу, але я все намагаюся :)
Аксакал,

Відповіді:


43

Найпростіший спосіб пояснити це тим, що регуляризація допомагає не підходити до шуму, але це не дуже сприяє визначенню форми сигналу. Якщо ви думаєте про глибоке навчання як гігантський аппроксиматор славної функції, то розумієте, що для визначення форми складного сигналу йому потрібно багато даних.

Якби не було шуму, то зростаюча складність NN призведе до кращого наближення. Не було б жодного штрафу до розміру NN, більший був би кращий у кожному випадку. Розглянемо наближення Тейлора, більше термінів завжди краще для неполіномічної функції (ігнорування числових питань точності).

Це руйнується при наявності шуму, тому що ви починаєте підлаштовуватися під шум. Отож, тут на допомогу приходить регуляризація: вона може зменшити розміщення шумів, тим самим дозволяючи нам створити більший NN, щоб відповідати нелінійним проблемам.

Наступна дискусія не є важливою для моєї відповіді, але я додав частково, щоб відповісти на деякі коментарі та мотивувати основну частину відповіді вище. В основному, решта моєї відповіді - це як французькі пожежі, які виходять з їжею з гамбургер, ви можете пропустити це.

(ІР) відповідний випадок: поліноміальна регресія

Давайте розглянемо іграшковий приклад поліноміальної регресії. Це також досить хороший аппроксиматор для багатьох функцій. Ми розглянемо функцію в області x ( - 3 , 3 ) . Як видно з його серії Тейлор нижче, розширення 7-го порядку вже досить добре підходить, тому ми можемо очікувати, що поліном порядку 7+ повинен бути дуже гарним:гріх(х)х(-3,3)

введіть тут опис зображення

Далі ми підходимо поліноми з прогресивно вищим порядком до невеликого дуже галасливого набору даних із 7 спостережень:

введіть тут опис зображення

Ми можемо спостерігати, що нам багато людей знають про поліноми: вони нестабільні, і починають дико коливатися зі збільшенням порядку поліномів.

Однак проблема полягає не в самих поліномах. Проблема - шум. Коли ми підлаштовуємо поліноми до галасливих даних, частина пристосування - це шум, а не сигнал. Ось такі ж точні поліноми підходять до одного і того ж набору даних, але з повністю видаленим шумом. Підходить чудово!

гріх(х)

введіть тут опис зображення

Також зауважте, що поліноми вищого порядку не підходять так само, як і порядок 6, оскільки недостатньо спостережень для їх визначення. Отже, давайте розглянемо, що відбувається зі 100 спостереженнями. На графіку нижче ви бачите, як більший набір даних дозволив нам помістити поліноми вищого порядку, тим самим досягнувши кращого пристосування!

введіть тут опис зображення

Чудово, але проблема полягає в тому, що ми зазвичай маємо справу з галасливими даними. Подивіться, що станеться, якщо ви підходите до 100 спостережень за дуже галасливими даними, дивіться таблицю нижче. Ми повернулися до першого: поліноми вищого порядку створюють жахливі коливальні пристосування. Таким чином, збільшення набору даних не дуже допомогло підвищити складність моделі для кращого пояснення даних. Це знову ж таки, тому що складна модель краще підходить не тільки до форми сигналу, але і до форми шуму.

введіть тут опис зображення

Нарешті, спробуємо трохи кульгаву регуляризацію цієї проблеми. На графіку нижче представлена ​​регуляризація (з різними покараннями), застосована для 9 поліноміальної регресії. Порівняйте це з порядком (потужністю) 9 полінома, що підходить вище: при відповідному рівні регуляризації можна встановити поліноми вищого порядку до галасливих даних.

введіть тут опис зображення

Про всяк випадок, коли це було не ясно: я не пропоную використовувати поліноміальну регресію таким чином. Поліноми добре підходять для місцевих припадків, тому багатозначний многочлен може бути хорошим вибором. Часто підходити до них весь домен - це погана ідея, оскільки вони чутливі до шуму, як це було видно із сюжетів вище. Незалежно від того, чи є шум чисельним чи від якогось іншого джерела, це не так важливо в цьому контексті. шум - шум, а поліноми будуть реагувати на нього пристрасно.


8
І коли ваш набір даних невеликий, дуже важко розрізнити шум і нешум.
Алекс Р.

3
насправді регуляризація дозволяє мати більший NN без надмірного розміщення
Аксакал

6
@Alex - чому б це було за замовчуванням для більш простої моделі? Існує незрозуміла мінливість, яка все ще може бути придатною, збільшуючи складність! І ... мета - максимально зменшити незрозумілу мінливість ... якби цього не було, NN за замовчуванням використовувала б найпростішу можливу модель, а саме "0". Але, як писав Аксакал, оскільки NN зменшує незрозумілу мінливість даних все більше і більше, вона також підходить для незрозумілої змінності, тобто перевиконання - отже, необхідність регуляризації.
jbowman

2
Інша річ: припустимо, що основоположний процес, який ви моделюєте, є галасливим, наприклад, поведінкою людини при голосуванні чи певними наслідками для здоров'я, які важко передбачити. Скажіть також, що ваші дані пронизані різними помилками вимірювань і, можливо, навіть деякими ухилами відбору. У такому високому шумовому сигнальному середовищі я б не віддав перевагу більш простої моделі з регуляризацією. Я навіть можу віддати перевагу менше даних, так що я не закінчую дуже точно вимірювати купу шуму, незважаючи на всі зусилля, спрямовані на регуляризацію.
Зрив рівноваги

2
@BrashEquilibrium - відмінний момент. Ми робимо масштабне прогнозування за допомогою градієнтних прискорювальних машин, які мають близько 150 функцій, багато з яких мають високий рівень шуму (але все ще покращують якість прогнозу), і виявили, що дають ГБМ 20% даних для навчання за результатами кращі прогнози, ніж давання 50% або більше, навіть при застосуванні всіх інших механізмів регуляризації.
jbowman

7

На даний момент часу недостатньо зрозуміло, коли і чому певні методи регуляризації досягають успіху та невдачі. Насправді, це зовсім не зрозуміло, чому глибоке навчання працює в першу чергу.

Зважаючи на той факт, що досить глибока нейронна сітка може ідеально запам’ятовувати більшість добре сприйнятих тренувальних даних, існує значно більше помилкових рішень, ніж правильних для будь-якої конкретної глибокої сітки. Регуляризація, в цілому кажучи, - це спроба обмежити виразність моделей цих "неправильних" рішень - там, де "неправильне" визначається евристикою, на нашу думку, важливою для певної галузі . Але часто важко визначити евристику таким чином, щоб ви не втратили при цьому «правильної» експресивності. Чудовим прикладом цього є покарання L2.

Дуже мало методів, які можна вважати формою регуляризації, зазвичай застосовуються для всіх областей застосування МЛ. Проблеми із баченням, NLP та структурованими прогнозами мають свою власну книгу методик регуляризації, для яких було показано, що вони експериментально ефективні для цих конкретних областей. Але навіть у цих сферах ці методи ефективні лише за певних обставин. Наприклад, пакетна нормалізація в глибоких залишкових мережах робить випаданням зайвим, незважаючи на те, що для обох було показано, що незалежно покращують генералізацію.

Окремо зауваживши, я вважаю, що термін регуляризація настільки широкий, що його важко зрозуміти. Враховуючи той факт, що згортки обмежують простір параметрів експоненціально відносно пікселів, ви могли б вважати згорнуту нейронну мережу формою регуляризації на нейромережі ванілі.


Я не впевнений, чи згоден я з вашим першим пунктом.
Андер Бігурі

3
Важко говорити про це в 500 символах, але провідні дослідники світу стверджують, що успіх SGD недостатньо зрозумілий. Наприклад, візьміть Іллю С. з OpenAI: youtube.com/watch?v=RvEwFvl-TrY&feature=youtu.be&t=339
Остін Шін

Цілком погоджуйтеся - напевно, причина, чому легше міркувати з поліноміальними наближеннями, а не власне мережами ...
P-Gn

3

Один клас теорем, який показує, чому ця проблема є фундаментальною, - це теорії без вільного обіду . Для кожної проблеми з обмеженими зразками, де певна регуляризація допомагає, є ще одна проблема, коли ця сама регуляризація погіршить ситуацію. Як зазначає Остін, ми, як правило, вважаємо, що регуляризація L1 / L2 є корисною для багатьох проблем у реальному світі, але це лише спостереження, і через теореми NFL загальних гарантій не може бути.


3

Я б сказав, що на високому рівні індуктивний зміщення ДНЗ (глибоких нейронних мереж) є потужним, але трохи надто вільним або недостатньо впевненим. Маючи на увазі, я маю на увазі, що DNN збирають багато поверхневої статистики про те, що відбувається, але не вдається дістатись до більш глибокої причинно-наслідкової структури високого рівня. (Ви можете розглядати згортки як специфікацію індуктивного зміщення бідної людини).

Окрім того, у спільноті машинного навчання вважають, що найкращий спосіб узагальнити (зробити хороші умовиводи / прогнози з невеликими даними) - знайти найкоротшу програму, яка дала дані. Але індукція / синтез програми є важким, і ми не маємо хорошого способу зробити це ефективно. Тож ми замість цього покладаємось на близьке наближення, яке є ланцюговим пошуком, і ми знаємо, як це зробити із зворотним розповсюдженням. Тут Ілля Суцкевер дає огляд цієї ідеї.


Щоб проілюструвати різницю в потужності узагальнення моделей, представлених як фактичні програми проти моделей глибокого навчання, я покажу таку у цій роботі: Моделювання як двигун розуміння фізичної сцени .

введіть тут опис зображення

(A) Модель IPE [інтуїтивного фізичного двигуна] приймає вхідні дані (наприклад, сприйняття, мова, пам'ять, зображення тощо), які створюють розподіл по сценах (1), а потім імітують вплив фізики на розподіл (2), а потім агрегує результати для виведення на інші сенсомоторні та когнітивні здібності (3)

введіть тут опис зображення

(B) Досвід 1 (Чи впаде?) Подразники вежі. Башта з червоною облямівкою насправді вишукано врівноважена, а інші дві мають однакову висоту, але за синьою облямівкою судять набагато менше шансів впасти модель і люди.

(C) Імовірнісна модель IPE (вісь x) проти середніх оцінок людини (вісь y) в Exp. 1. Див. Рис. S3 для співвідношень інших значень σ і ϕ. Кожна точка являє собою одну вежу (з SEM), а три кольорові кола відповідають трьом вежам у В.

(D) Основна істина (неімовірність) проти людських суджень (Досвід 1). Оскільки він не представляє невизначеності, він не може зафіксувати судження людей щодо низки наших стимулів, таких як башта з червоною облямівкою в Б. (Зауважте, що ці випадки можуть бути рідкісними на природних сценах, де конфігурації мають тенденцію бути більш чіткими стійкими або нестабільний, і очікується, що IPE краще співвідноситься з первинною істиною, ніж це стосується наших стимулів.)

Моя думка тут полягає в тому, що вміст на C справді хороший, оскільки модель фіксує правильні ухили щодо того, як люди приймають фізичні судження. Це у великій частині , тому що вона моделює реальні фізики (пам'ятаєте , що це фактичний фізичний движок) і може мати справу з невизначеністю.

Тепер очевидне питання: чи можна це зробити з глибоким навчанням? Це зробили в цій роботі Лерер та інші: Навчання фізичній інтуїції блок-веж на прикладі

Їх модель: введіть тут опис зображення

Їх модель насправді є досить хорошою у вирішенні завдання (передбачення кількості падаючих блоків та навіть їх напряму падіння)

введіть тут опис зображення

Але це має два основні недоліки:

  • Для правильного тренування потрібна величезна кількість даних
  • Узагальнено лише дрібними способами: ви можете перенести на більш реалістичні зображення, додавати або видаляти 1 або 2 блоки. Але нічого іншого, і продуктивність знижується катастрофічно: додайте 3 або 4 блоки, змініть завдання передбачення ...

Проведене порівняльне дослідження, проведене лабораторією Тененбаума, щодо цих двох підходів: порівняльна оцінка приблизного ймовірнісного моделювання та глибоких нейронних мереж як рахунків розуміння фізичної сцени людини .

Цитуючи розділ обговорення:

Продуктивність CNN знижується, оскільки менше навчальних даних. Хоча AlexNet (не перевіряється) краще з 200 000 навчальних зображень, він також більше страждає від нестачі даних, тоді як перевірений AlexNet здатний краще вчитися з невеликої кількості навчальних зображень. Для нашого завдання для обох моделей потрібно близько 1000 зображень, щоб їх продуктивність була порівнянна з моделлю IPE та людьми.

CNN також мають обмежену здатність до узагальнення для навіть невеликих варіацій сцени, таких як зміна кількості блоків. На противагу цьому, моделі IPE природним чином узагальнюють та фіксують способи, коли точність судження людини зменшується із кількістю блоків у стеку.

У сукупності ці результати вказують на щось принципове в людському пізнанні, яке нейронні мережі (або принаймні CNN) наразі не фіксують: існування ментальної моделі світових причинних процесів. Причинно-наслідкові ментальні моделі можуть бути імітовані для прогнозування того, що відбуватиметься в якісно нових ситуаціях, і вони не потребують широких та різноманітних даних про навчання для узагальнення, але вони притаманні певним помилкам (наприклад, поширенню невизначеності через стан та динамічний шум) якраз в силу роботи за допомогою моделювання.

Назад до того, що я хочу зробити: хоча нейронні мережі є потужними моделями, вони, здається, не мають можливості представляти причинно-наслідкову, композиційну та складну структуру. І вони компенсують це, вимагаючи багато даних про навчання.

І повернемось до вашого запитання: я б задумався, що широкий індуктивний ухил і той факт, що нейронні мережі не моделюють причинності / композиційності, тому їм потрібна стільки навчальних даних. Регуляризація не є великим виправленням через спосіб їх узагальнення. Кращим рішенням може бути зміна їх упередженості, як зараз намагається Гінтон з капсулами для моделювання геометрії цілих частин або частин взаємодії для моделювання відносин.


2

Перш за все, існує безліч методів регуляризації як у використанні, так і в активних дослідженнях для глибокого навчання. Отже, ваше приміщення не зовсім впевнене.

Що стосується методів, що застосовуються, то зменшення ваги є прямим впровадженням штрафу L2 на ваги за допомогою градієнтного спуску. Візьміть градієнт квадратної норми ваг і додайте до них невеликий крок у цьому напрямку при кожній ітерації. Випадання також вважається формою регуляризації, яка накладає своєрідну усереднену структуру. Це могло б означати щось на зразок покарання L2 за ансамбль мереж із спільними параметрами.

Ви, мабуть, могли підняти рівень тих чи інших методик для вирішення дрібних зразків. Але зауважте, що регуляризація передбачає нав'язування попередніх знань. Штраф L2 для ваг передбачає, наприклад, гауссовий примір для ваг. Збільшення кількості регуляризації по суті говорить про те, що ваші попередні знання стають все більш певними і спрямовують ваш результат до цього попереднього. Таким чином, ви можете це зробити, і це буде менше, але упереджений вихід може бути достатнім. Очевидно, що рішення краще, ніж попередні знання. Для розпізнавання зображень це означатиме набагато більш структуровані пріорі щодо статистики вашої проблеми. Проблема в цьому напрямку полягає в тому, що ви нав'язуєте багато доменних знань, а уникнення необхідності нав'язувати людську експертизу було однією з причин використання глибокого навчання.


+1 для згадки про упередженість. Чому б не пояснити всю цю річ з точки зору упередженості та відмінності? "Overfitting" не має точного математичного визначення і передбачає відсутність дихотомії ("overfit" / "not-overfit").
Джош

2

Щоб уточнити своє мислення: Скажімо, ми використовуємо велику Deep NNet, щоб спробувати моделювати наші дані, але набір даних невеликий і насправді можна моделювати за допомогою лінійної моделі. Тоді чому б ваги мережі не збігаються таким чином, що один нейрон імітує лінійну регресію, а всі інші сходяться до нулів? Чому регуляризація не допомагає в цьому?

Нейронні мережі можна тренувати так. Якщо правильна регуляризація L1 використовується, то велика частина ваг може бути нульовою, і це змусить нейронні сітки вести себе як з'єднання 1 або близько того лінійних регресійних нейронів та багатьох інших нульових нейронів. Так так - регуляризацію L1 / L2 або подібне можна використовувати для обмеження розміру або уявної потужності нейронної мережі.

Насправді розмір самої моделі є своєрідною регуляризацією - якщо ви зробите модель великою, це означає, що ви ввели попередні знання про проблему, тобто проблеми є дуже складними, тому для неї потрібні моделі, що мають високу представницьку силу. Якщо ви зробите модель невеликою, це означає, що ви вводите знання, що проблема проста, тому модель не потребує великої потужності.

А це означає, що регуляризація L2 не зробить мережі «розрідженими», як ви описали, оскільки регуляризація L2 вводить попередні знання про те, що внесок кожного нейрона (вага) повинен бути невеликим, але не нульовим. Отже, мережа використовує кожен з нейронів, а не використовує лише невеликий набір нейронів.


1

L2L1 має сенсу з традиційної байєсівської точки зору, але це вже інша історія ...).

Ключовим моментом тут є те, що регуляризація не завжди корисна. Швидше, регуляризація до того, що, мабуть, має бути правдою , дуже корисна, але регуляризація в неправильному напрямку явно погана.

L2 покаранням і у нас в наборі даних була змінна індикатор "точкові вуха", ми могли би просто зменшити штраф на змінну вушних вух (а ще краще - штрафувати до позитивного значення, а не 0), і тоді для нашої моделі знадобиться менше даних для точних прогнозів.

Але тепер припустимо, що наші дані - це зображення котів, що надходять у глибокі нейронні мережі. Якщо "точкові вуха" насправді дуже корисні для ідентифікації котів, можливо, ми хотіли б зменшити штраф, щоб надати цьому більше прогностичної сили. Але ми поняття не маємо де в мережі це буде представлено! Ми все ще можемо запровадити штрафні санкції, щоб якась невелика частина системи не домінувала над усією мережею, але поза цим важко запровадити регуляризацію змістовно.

Підсумовуючи це, включити попередню інформацію в систему, яку ми не розуміємо, надзвичайно важко.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.