Чому б не завжди використовувати техніку оптимізації ADAM?


13

Здається, оптимізатор адаптивного оцінювання моменту (Адама) майже завжди працює краще (швидше і надійніше досягаючи глобального мінімуму), коли мінімізує функцію витрат на навчання нейронних мереж.

Чому б не завжди використовувати Адама? Навіщо навіть турбуватися використанням RMSProp або оптимізаторів імпульсу?


1
Я не вірю, що існує якийсь суворий формалізований спосіб підтримати будь-яке твердження. Це все чисто емпірично, оскільки поверхня помилок невідома. Як правило, з чистого досвіду, ADAM добре працює там, де інші не вдається (сегментація екземпляра), хоча не без недоліків (конвергенція не є одноманітною)
Алекс

2
Адам швидше сходить. SGD повільніше, але генералізується краще. Тож наприкінці все залежить від ваших конкретних обставин.
agcala

Відповіді:


13

Ось повідомлення в блозі, в якому розглядається стаття, в якій стверджується, що SGD є кращим узагальненим адаптером, ніж ADAM. https://shaoanlu.wordpress.com/2017/05/29/sgd-all-which-one-is-the-best-optimizer-dogs-vs-cats-toy-experiment/

Часто існує значення використання декількох методів (ансамблю), оскільки кожен метод має слабкість.


5

Слід також поглянути на цю публікацію, порівнюючи різні оптимізатори спуску градієнта. Як ви бачите нижче, Адам, очевидно, не найкращий оптимізатор для деяких завдань, оскільки більшість сходяться краще.


Тільки для запису: у пов'язаній статті вони згадують деякі недоліки ADAM і представляють AMSGrad як рішення. Однак вони роблять висновок, що чи AMSGrad перевершує ADAM на практиці (на момент написання документації) не є переконливим.
Лус
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.