Яка різниця між випадаючим і краплинним з'єднанням?


24

Яка різниця між випадаючим і краплинним з'єднанням?

AFAIK, випадання випадковим чином скидає приховані вузли під час тренування, але тримає їх у тестуванні, а краплі підключають краплі.

Але чи не випадає з’єднання, рівнозначне видаленню прихованих вузлів? Чи не вузли (або з'єднання) - це лише набір ваг?

Відповіді:


24

DropOut та DropConnect - це обидва методи, призначені для запобігання «співнадійності» одиниць у нейронній мережі. Іншими словами, ми хочемо, щоб одиниці самостійно отримували функції зі своїх даних, а не покладалися на інші нейрони.

Припустимо, у нас є така багатошарова мережа, як ця (топологія насправді не має значення). Ми стурбовані тим, що жовті приховані одиниці в середньому шарі спільно адаптуються.

зразок 5-4-3 мережі

Опускати

Щоб застосувати DropOut, ми випадковим чином вибираємо підмножину одиниць і затискаємо їх вихід до нуля, незалежно від введення; це ефективно видаляє ці одиниці з моделі. Різні підмножини одиниць вибираються випадковим чином кожного разу, коли ми представляємо навчальний приклад.

Нижче наведено дві можливі конфігурації мережі. У першій презентації (ліворуч) 1-я та 3-я одиниці відключені, але 2-я та 3-я одиниці були вибрані випадковим чином у наступній презентації. У тестовий час ми використовуємо повну мережу, але масштабуємо ваги, щоб компенсувати той факт, що всі вони тепер можуть стати активними (наприклад, якщо ви скинете половину вузлів, ваги також повинні бути вдвічі меншими).

Приклади DropOut

DropConnect

DropConnect працює аналогічно, за винятком того, що ми відключаємо окремі ваги (тобто встановлюємо їх на нуль) замість вузлів, тому вузол може залишатися частково активним. Схематично це виглядає приблизно так:

DropConnect

Порівняння

Обидва ці методи працюють, оскільки вони ефективно дозволяють тренувати декілька моделей одночасно, а потім оцінювати їх для тестування. Наприклад, жовтий шар має чотири вузли, і, таким чином, 16 можливих станів DropOut (усі включені, №1 вимкнено, №1 та №2 відключені тощо).

DropConnect - це узагальнення DropOut, оскільки воно створює ще більше можливих моделей, оскільки майже завжди більше з'єднань, ніж одиниць. Однак ви можете отримати подібні результати на індивідуальному випробуванні. Наприклад, мережа DropConnect праворуч ефективно скинула блок №2, оскільки всі вхідні з'єднання були видалені.

Подальше читання

Оригінальні документи досить доступні і містять більше деталей та емпіричних результатів.


6

Так, але вони трохи відрізняються з точки зору того, як скидають ваги.

Це формули DropConnect (зліва) та dropout (праворуч).

введіть тут опис зображення введіть тут опис зображення

Тож відсідання застосовує маску до активацій, тоді як DropConnect застосовує маску до ваг.

У статті DropConnect йдеться про те, що це узагальнення випадання в тому сенсі, що

DropConnect - це узагальнення Dropout, при якому кожне з'єднання замість кожного вихідного блоку, як у Dropout, може бути відхилено з вірогідністю p.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.