Чи пов'язані залишкові мережі з підвищенням градієнта?


11

Нещодавно ми побачили появу Залишкової Нейронної Мережі, де кожен шар складається з обчислювального модуля та з'єднання, що зберігає вхід до шару, такого як вихід i-го шару демонструє: Мережа дозволяє витягнути залишкові характеристики та дозволяє отримати більш глибоку глибину, в той час як бути більш надійною до зникаючої градієнтної проблеми, досягаючи сучасних показників.y i + 1 = c i + y ici

yi+1=ci+yi

Заглибившись у градієнтне збільшення , дуже потужна техніка збирання у світі машинного навчання, яка також, здається, виконує форму оптимізації градієнта на залишок втрати, важко не побачити певної форми подібності.

Я знаю, що вони схожі, але не однакові - одна основна відмінність, яку я помітив, полягає в тому, що підвищення градієнта виконує оптимізацію за терміном добавки, тоді як залишкова сітка оптимізує всю мережу.

Я не бачив, як він та інші відзначають це як частину їхньої мотивації в оригінальному документі . Тож мені було цікаво, що ви розумієте на цю тему, і прошу, щоб ви поділилися цікавими ресурсами, які у вас є.

Дякую.

Відповіді:


7

Можливо, новіший документ, який намагається вирішити більшу частину роботи від команди Ленфорда та Шейпіра: Навчання глибоких блоків ResNet послідовно, використовуючи розширену теорію

Цікаві частини (див. Розділ 3):

t=0Tft(gt(x))wt

ot(x):=wtTgt(x)R

...

ot(x)=t=0t1wtTft(gt(x))

ht(x)


Додавши до цього відповіді трохи детальніше, всі алгоритми підвищення можна записати у формі [1] (p 5, 180, 185 ...):

ЖТ(х): =т=0Тαтгодт(х)

годтттгодαтαтгодт

годтϵтαт=12журнал1-ϵтϵт

годтL(Жт-1(х))годтαт>0

ТЖ(х)

Ж(х)т=0Тгодт(х)

ЖТ(х): =т=0Тαтгодт(х)

[1] Роберт Е. Шапір та Йоав Фрейнд. 2012. Підвищення: основи та алгоритми. MIT Press. p 5, 180, 189
[2] Фуронг Хуан, Джордан Еш, Джон Ленгфорд, Роберт Шапір: Навчання блокам глибокого ResNet послідовно з використанням теорії підсилення, ICML 2018


4

Відповідаючи на власне запитання: я знайшов помітний документ, який досліджує та доводить, що Deep Residual Networks справді є ансамблем неглибоких мереж.

ДРУГИЙ РЕДАКТ, після того, як зрозумів цю проблему, ще більше: я розглядаю Реснет як спосіб дізнатися "Підвищення функцій". Залишкове з'єднання виконує підвищення, але не на об'єктивних, а фактично на вихідних характеристиках наступного шару. Таким чином, вони насправді пов’язані, але це не класичне збільшення градієнта, а насправді «Градієнтне підвищення функції».

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.