Нейронна мережа з пропускними рівнями


26

Мене цікавить регресія з нейронними мережами.

Нейронні мережі з нульовими прихованими вузлами + з'єднання пропускового шару є лінійними моделями.

Що з тими ж нейронними мережами, але із прихованими вузлами? Мені цікаво, якою була б роль з'єднань пропускового шару?

Інтуїтивно, я б сказав, що якщо включити з'єднання пропускового шару, то остаточна модель буде сумою лінійної моделі + деяких нелінійних частин.

Чи є якась перевага чи недолік у додаванні з'єднань пропускового шару до нейронних мереж?

Відповіді:


38

Я дуже запізнююсь на гру, але хотів опублікувати, щоб відобразити деякі поточні події в згорткових нейронних мережах щодо пропускних з'єднань .

Нещодавно дослідницька команда Microsoft перемогла у конкурсі ImageNet 2015 та випустила технічний звіт « Глибоке залишкове навчання для розпізнавання зображень», в якому описує деякі їх основні ідеї.

Одним з їх головних внесків є ця концепція глибоких залишкових шарів . Ці глибокі залишкові шари використовують пропускні з'єднання . Використовуючи ці глибокі залишкові шари, вони змогли навчити сітку конвеєрів 152 шарів для ImageNet 2015 року. Вони навіть навчили сітку конвертів 1000+ для CIFAR-10.

Проблема, яка їх мотивувала, полягає в наступному:

Коли більш глибокі мережі зможуть почати конвергенцію, виявляється проблема деградації : із збільшенням глибини мережі точність стає насиченою (що може бути не дивно), а потім швидко знижується. Несподівано така деградація не викликана переозброєнням , а додавання більше шарів до належно глибокої моделі призводить до вищої помилки в навчанні ...

Ідея полягає в тому, що якщо взяти "дрібну" мережу і просто укладати більше шарів, щоб створити більш глибоку мережу, продуктивність більш глибокої мережі повинна бути як мінімум такою ж мірою, як мілка мережа, оскільки більш глибока мережа могла б дізнатися точну дрібну. мережу, встановивши нові складені шари на рівні шарів ідентичності (насправді ми знаємо, що це, мабуть, малоймовірно, що станеться, не використовуючи архітектурних пріорів чи сучасних методів оптимізації). Вони зауважили, що це не так, і помилка тренувань іноді погіршується, коли вони укладають більше шарів поверх неглибокої моделі.

Таким чином, це мотивувало їх використовувати пропускні з'єднання та використовувати так звані глибокі залишкові шари, щоб дозволити їхній мережі дізнатися відхилення від шару ідентичності, отже, термін залишковий , залишковий тут посилається на відмінність від ідентичності.

Вони реалізують пропускні з'єднання таким чином: введіть тут опис зображення

Тож вони розглядають карту як деяку залишкову карту. Вони використовують з'єднання пропускного шару, щоб передати це відображення в . Отже, якщо залишковий "малий", карта приблизно відповідає тотожності.Ж(х): =Н(х)-хЖ(х)+х=Н(х)Ж(х)Н(х)

Таким чином, використання глибоких залишкових шарів через пропускні з'єднання дозволяє їх глибоким мережам дізнаватися приблизні шари ідентичності, якщо це дійсно те, що є оптимальним або локально оптимальним. Дійсно, вони стверджують, що їх залишкові шари:

Покажемо експериментами (рис. 7), що вивчені залишкові функції взагалі мають невеликі відгуки

А чому саме це працює, вони не мають точної відповіді. Вкрай малоймовірно, що шари ідентичності є оптимальними, але вони вважають, що використання цих залишкових шарів допомагає передумовити проблему, і що легше вивчити нову функцію за умови відліку / базової лінії порівняння з картографічним ідентифікацією, ніж навчитися "з нуля" без використання базової лінії ідентичності Хто знає. Але я подумав, що це буде гарною відповіддю на ваше запитання.

До речі, заднім числом: відповідь сашкелло ще краща, чи не так?


Що ви маєте на увазі під умовою? (також ваша відповідь набагато краща за сашкелло багато імхо). Крім того, проблема полягає в тому, що додавання подальших шарів без пропускних з'єднань ускладнює глибшу мережу навіть знайти відображення ідентичності? (чомусь?)
Чарлі Паркер

20

Теоретично з'єднання пропущеного рівня не повинні покращувати продуктивність мережі. Але, оскільки складні мережі важко піддаються навчанню та їх легко переозброєння, може бути дуже корисно явно додати це як термін лінійної регресії, коли ви знаєте, що ваші дані мають сильну лінійну складову. Це натякає на модель у правильному напрямку ... Крім того, це більш інтерпретаційно, оскільки вона представляє вашу модель як лінійну + збурення, розплутуючи трохи структури за мережею, що зазвичай сприймається лише як чорний ящик.


@sashkello Ви можете детально розглянути питання про те, що "з'єднання пропускного рівня не повинні покращуватись в роботі мережі" теоретично. Це було б чудово зрозуміти.
голос

@hunch Це тому, що ви можете моделювати це без необхідності пропускання шару. Пропускний шар - це лише лінійний термін. Сигмоїдна функція ~ лінійна близько 0. Отже, з'єднання пропускного шару буде вести себе як прихований вузол з дуже невеликими вхідними вагами.
сашкелло

5

Моя стара панель інструментів нейронної мережі (я в основному використовую машини ядра сьогодні) використовувала регуляризацію L1, щоб вирізати зайві ваги та приховані одиниці, а також мала з'єднання пропускного шару. Це має ту перевагу, що якщо проблема по суті лінійна, приховані одиниці мають тенденцію до обрізання, і вам залишається лінійна модель, яка чітко говорить про те, що проблема є лінійною.

Як підказує sashkello (+1), MLP - це універсальні наближувачі, тому з'єднання пропущеного шару не поліпшать результати обмеження нескінченних даних та нескінченної кількості прихованих одиниць (але коли ми коли-небудь наблизимось до цієї межі?). Справжня перевага полягає в тому, що це полегшує оцінку хороших значень для ваг, якщо мережна архітектура добре відповідає проблемі, і ви, можливо, зможете використовувати меншу мережу та отримати кращі показники узагальнення.

Однак, як і у більшості питань нейронної мережі, як правило, єдиний спосіб дізнатися, чи буде корисним чи шкідливим для певного набору даних, це спробувати його та побачити (використовуючи надійну процедуру оцінки ефективності).


3
"спробуйте і подивіться" - золоті слова :)
sashkello

0

На основі єпископа 5.1. Мережеві функції передачі каналу: Способом узагальнення мережевої архітектури є включення підключень пропускного рівня, кожне з яких пов'язане з відповідним адаптивним параметром. Наприклад, у двошаровій (двох прихованих) мережах вони йдуть безпосередньо від входів до виходів. В принципі, мережа з сигмоїдальними прихованими одиницями завжди може імітувати з'єднання пропущеного шару (для обмежених вхідних значень), використовуючи достатньо малу вагу першого шару, яка за робочим діапазоном прихованого блоку ефективно лінійна, а потім компенсується великим значення ваги від прихованої одиниці до виходу.

На практиці, однак, може бути вигідним включити з'єднання пропускного рівня явно.введіть тут опис зображення

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.