Нещодавно я прочитав статтю Янна Дофіна та ін. Виявлення та атака проблеми сідлових точок у великомірній невипуклій оптимізації , де вони запроваджують цікавий алгоритм спуску під назвою Ньютон , що не є сідлом , який, здається, є спеціально розробленим для оптимізації нейронної мережі і не повинен страждати від застрявання в точках сідла. як методи першого порядку, як ванільний SGD.
Папір датований 2014 роком, тому він не є абсолютно новим, однак я не бачив, щоб він використовувався "в дикій природі". Чому цей метод не використовується? Чи занадто заборонене обчислення Гессі для проблем / мереж у реальному світі? Чи існує навіть якась реалізація цього алгоритму з відкритим кодом, можливо, його можна використовувати в деяких основних рамках глибокого навчання?
Оновлення лютого 2019 року: доступна реалізація: https://github.com/dave-fernandes/SaddleFreeOptimizer )