Нещодавно ми побачили появу Залишкової Нейронної Мережі, де кожен шар складається з обчислювального модуля та з'єднання, що зберігає вхід до шару, такого як вихід i-го шару демонструє: Мережа дозволяє витягнути залишкові характеристики та дозволяє отримати більш глибоку глибину, в той час як бути більш надійною до зникаючої градієнтної проблеми, досягаючи сучасних показників.y i + 1 = c i + y i
Заглибившись у градієнтне збільшення , дуже потужна техніка збирання у світі машинного навчання, яка також, здається, виконує форму оптимізації градієнта на залишок втрати, важко не побачити певної форми подібності.
Я знаю, що вони схожі, але не однакові - одна основна відмінність, яку я помітив, полягає в тому, що підвищення градієнта виконує оптимізацію за терміном добавки, тоді як залишкова сітка оптимізує всю мережу.
Я не бачив, як він та інші відзначають це як частину їхньої мотивації в оригінальному документі . Тож мені було цікаво, що ви розумієте на цю тему, і прошу, щоб ви поділилися цікавими ресурсами, які у вас є.
Дякую.