[Примітка 5 квітня 2019 р. На arXiv оновлено нову версію статті з багатьма новими результатами. Ми також вводимо зворотні версії Momentum та NAG, і доводимо збіжність за тими самими припущеннями, що і для Backtracking Gradient Descent.
Вихідні коди доступні на GitHub за посиланням: https://github.com/hank-nguyen/MBT-optimizer
Ми вдосконалили алгоритми застосування до DNN та отримали кращу продуктивність, ніж найсучасніші алгоритми, такі як MMT, NAG, Adam, Adamax, Adagrad, ...
Найбільш особливою особливістю наших алгоритмів є те, що вони є автоматичними, вам не потрібно робити ручну точну настройку темпів навчання як звичайну практику. Наша автоматична тонка настройка відрізняється за своєю суттю від Адама, Адамакса, Адаграда, ... тощо. Більше деталей - у статті.
]
На основі дуже останніх результатів: У моїй спільній роботі в цьому документі https://arxiv.org/abs/1808.05160
Ми показали, що зворотний градієнт спуску при застосуванні до довільної функції С ^ 1 , що має лише чисельну кількість критичних точок, завжди буде або сходитися до критичної точки, або розходиться до нескінченності. Ця умова виконується для загальної функції, наприклад для всіх функцій Морзе. Ми також показали, що в деякому сенсі граничною точкою дуже рідко є точка сідла. Отже, якщо всі ваші критичні точки є невиродженими, то в певному сенсі граничні бали - це всі мінімуми. [Будь ласка, дивіться також посилання в цитованому документі для відомих результатів у випадку стандартного градієнтного спуску.]f
Виходячи з вищесказаного, ми запропонували новий метод глибокого навчання, який знаходиться нарівні з сучасними сучасними методами і не потребує ручної точної настройки показників навчання. (Коротше кажучи , ідея полягає в тому, що ви виконуєте зворотний градієнт спуску певний проміжок часу, поки не побачите, що темпи навчання, які змінюються з кожною ітерацією, стабілізуються. Ми очікуємо цієї стабілізації, зокрема в критичну точку, яка є C ^ 2 і не вироджується через результат зближення, про який я згадував вище. У цей момент ви переходите на стандартний метод градієнтного спуску. Будь ласка, дивіться цитований документ для більш детальної інформації. Цей метод також може бути застосований до інших оптимальних алгоритмів .)
PS Що стосується вашого первинного запитання про стандартний метод спуску градієнта, наскільки мені відомо лише в тому випадку, коли похідна карта є глобально Ліпшицем і швидкість навчання досить мала, що стандартний метод спуску градієнта доводиться збігатися. [Якщо ці умови не виконуються, є прості зустрічні приклади, які показують, що результат конвергенції неможливий, див. Цитований документ для деяких.] У роботі, цитованій вище, ми стверджували, що в перспективі метод спуску градієнта зворотного відстеження стане стандартний метод спуску градієнта, який дає пояснення, чому стандартний метод спуску градієнта зазвичай добре працює на практиці.