Чому додавання шару відсіву покращує ефективність глибокого / машинного навчання, враховуючи, що випадання пригнічує деякі нейрони з моделі?


13

Якщо видалення деяких нейронів призводить до більш ефективної моделі, чому б не використати в першу чергу більш просту нейронну мережу з меншими шарами і меншою кількістю нейронів? Навіщо будувати більшу, більш складну модель на початку і придушувати її частини згодом?

Відповіді:


31

Функція випадання полягає у підвищенні надійності моделі, а також у усуненні будь-яких простих залежностей між нейронами.

Нейрони видаляються лише за один прохід вперед і назад через мережу - це означає, що їх ваги синтетично встановлені на нуль для цього проходу, і тому їх помилки також є, що означає, що ваги не оновлюються. Випадання також працює як форма регуляризації , оскільки певною мірою карає модель за своєю складністю.

Я рекомендую прочитати розділ «Відпадання» у книзі «Поглиблене навчання в Інтернеті» Майкла Нільсена (безкоштовно та в Інтернеті), яка дає чудову інтуїцію, а також має дуже корисні схеми / пояснення. Він пояснює, що:

Випадання - принципово інша техніка регуляризації. На відміну від регуляризації L1 та L2, відмова від роботи не покладається на зміну функції витрат. Натомість у спаді ми змінюємо саму мережу.

Ось приємна підсумкова стаття . З цієї статті:

Деякі зауваження:

  • Випадання змушує нейронну мережу вивчати більш надійні функції, корисні в поєднанні з багатьма різними випадковими підмножинами інших нейронів.
  • Випадання приблизно подвоює кількість ітерацій, необхідних для сходження. Однак час навчання для кожної епохи менше.
  • З H прихованих одиниць, кожну з яких можна скинути, ми маємо 2 ^ H можливих моделей. На етапі тестування враховується вся мережа і кожна активація зменшується на коефіцієнт p.

Приклад

Уявіть, що я прошу вас приготувати мені чашку чаю - ви завжди можете використовувати праву руку, щоб налити воду, ліве око, щоб виміряти рівень води, а потім правою рукою знову, щоб перемішати чай ложкою. Це означало б, що ваша ліва рука та праве око служать маленькій меті. Використання відсіву може, наприклад, зав'язати праву руку за спиною - змусити вас використовувати ліву руку. Тепер, зробивши мені 20 чашок чаю, будь-яким оком або однією рукою вийняли дію, ви краще навчитесь використовувати все доступне. Можливо, згодом вас змусять приготувати чай на крихітній кухні, де користуватися чайником можна лише лівою рукою ... і після використання випаду у вас є досвід цього робити! Ви стали більш надійними для невидимих ​​даних.


як визначити найкраще значення відсіву для класифікації на кілька класів? і як визначити найкращу кількість шару, що випадає?
N.IT

2
@ N.IT - наскільки я знаю, не існує чітко визначеного методу, який знайде найкращий рівень випадання або скільки шарів - крім jsut, який випробовує багато комбінацій. Як і в інших методах регуляризації та дослідження архітектури, ви, ймовірно, отримаєте найкращі результати, навчаючи модель та порівнюючи криві втрат навчання / валідації. Перегляньте це пояснення навколо теми .
n1k31t4

Чудова відповідь. Щоб бути більш конкретним щодо кухонних аналогій, Dropout використовується лише під час тренувань, а не під час виводу. Отже, складна модель частково не використовується.
Вайбхав Гарг

Я набрав цю відповідь, закриваю очі. gyes більше потреба в навчанні. nwws moew seopour.
VHanded

3

Випадання фактично не видаляє нейрони, це лише те, що ці конкретні нейрони не грають ніякої ролі (не активуються) для даної партії даних.

Приклад - Припустимо, є дорога з 8 смуг - Коли вантажівки приїжджають, вони проходять смуги 1,2,4,6,7, коли приїжджають машини, вони проходять через смуги 2,3,4,7,8 і коли їдуть велосипеди , вони проходять через смуги 1,2,5,8. Тож незалежно від будь-якого транспортного засобу всі смуги є, але використовуються лише деякі з них.

Так само всі нейрони використовуються в цілій моделі, але для певної групи даних активується лише підмножина нейронів. І модель не згортається пізніше, складність моделі залишається такою, якою є.

Навіщо використовувати випадання?

Як зазначено в книзі глибокого навчання Яна Гудфелло,

випадання є більш ефективним порівняно з іншими стандартними обчислювальними недорогими регуляторами, такими як зменшення ваги, обмеження норми фільтра та обмежена регуляризація активності.

Він також каже:

Однією з переваг випаду є те, що це обчислювально дешево.

Ще однією істотною перевагою відміни є те, що це не суттєво обмежує тип моделі чи тренувальну процедуру, які можна використовувати. Він добре працює майже з будь-якою моделлю, яка використовує розподілене представлення і може бути навчена зі стохастичним градієнтом. Сюди входять подалі нейронні мережі, ймовірнісні моделі, такі як машини з обмеженою діяльністю Больцмана (Srivastava et al., 2014) та періодичні нейронні мережі (Bayer та Osendorfer, 2014; Pascanu et al., 2014a).

Ця книга говорить:

Основна ідея полягає в тому, що введення шуму у вихідні значення шару може порушити шаблони випадків, які не мають значного значення, які мережа почне запам'ятовувати, якщо немає шуму.


Я відредагував питання про те, щоб використовувати слово придушити, а не видаляти. Залишається питання. Навіщо будувати стільки смуг, коли в кінцевому підсумку використовуються лише деякі з них?
користувач781486

@ user781486 Деякі з них означають деякі з них для кожної партії даних, але всі вони будуть використані, якщо врахувати цілі дані. Як і в моєму прикладі, всі смуги 1-8 використовуються, якщо взяти комбінований набір номерів смуг руху для кожного транспортного засобу.
Анкіт Сет

3

Інший спосіб дивитися на те, що робить випадання, полягає в тому, що це схоже на коефіцієнт коваріату (тобто деякий складний термін взаємодії вихідних коваріатів з деякими складними функціональними перетвореннями) в байєсівській моделі. Це тлумачення, запропоноване Ярином Галем у своїй дисертації (див. Його перелік публікацій ).

Ось короткий аргумент махає рукою, чому це так:

  • У тих партіях, де нейрон ліквідується, коефіцієнт для ознаки / коваріату (побудованого з'єднанням в нейронній мережі, що надходить у нейрон) дорівнює нулю (шип при нулі).
  • У тих партіях, де нейрон присутній, коефіцієнт є необмеженим (неправильна плоска пріор = плита).
  • У середньому по всіх партіях ви отримуєте попередньо шип-плиту.

Чому ми хотіли б попередньо плити і шипи? Він спонукає байєсівську модель, що порівнює між нейтральною мережею без цього нейрона і тією, що є в ній. Іншими словами, це дозволяє нам висловити невпевненість у тому, чи справді нейтральна мережа повинна мати повну можливу складність і належним чином враховувати цю невизначеність у прогнози Це стосується основної проблеми нейтральних мереж, здатних переобладнати дані (хоча, звичайно, це не єдиний можливий спосіб досягти цього).


Гарна думка. Відповідь буде оновлено.
Бьорн

2

Шар, що випадає, без розбору знімає певну частину нейронів, зменшуючи репрезентативну здатність розглянутої моделі. Це заважає мережі встановлювати складні нелінійні межі рішення (тобто "шум" у наборі даних), тим самим запобігаючи (або покращуючи) надлишкове розміщення.


0

Випадання допомагає покращити продуктивність моделі машинного навчання з наступних причин:

  • Спрощення роботи мережі: Це робить мережу простішою, отже, запобігає надмірному встановленню.
  • Краще, ніж використовувати єдину просту мережу: краще, ніж вручну перепроектувати простішу мережу, тому що, коли ви створили певну архітектуру, ви не можете її змінити, поки не закінчиться весь навчальний процес, тобто для всіх епох не буде виправлена ​​архітектура мережі. Але в мережу випадання мережа стає простішою різними способами в кожну епоху. Скажіть, для 1000 епох ви насправді намагаєтесь з 1000 типами більш простих варіацій мережі.
  • Дізнайтеся багато способів: вхід та вихід мережі не змінюються, єдине, що змінюється, - це відображення між ними. Тож просто уявіть це, що мережа вивчає одне і те ж саме різними способами. Так що, як і ця мережа, для нас, людей - кожного разу, коли ми думаємо про одну і ту ж проблему різними способами, ми автоматично вчимось узагальнювати її, і наше загальне знання та розуміння також покращується, і подібне відбувається з мережею. Оскільки під час процесу випадання у кожній епоху випадково деякі ваги (з'єднання від нейрона до іншого нейрона наступного шару) скорочуються, отже, ми змушуємо мережу вчитися, використовуючи наявні з'єднання, які все ще доступні, і таким чином мережа навчається як проаналізувати ту саму проблему з різних точок зору.
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.