Чому б не завжди використовувати техніку оптимізації ADAM?

13

Здається, оптимізатор адаптивного оцінювання моменту (Адама) майже завжди працює краще (швидше і надійніше досягаючи глобального мінімуму), коли мінімізує функцію витрат на навчання нейронних мереж.

Чому б не завжди використовувати Адама? Навіщо навіть турбуватися використанням RMSProp або оптимізаторів імпульсу?

neural-network optimization

— PyRsquared
джерело

1

Я не вірю, що існує якийсь суворий формалізований спосіб підтримати будь-яке твердження. Це все чисто емпірично, оскільки поверхня помилок невідома. Як правило, з чистого досвіду, ADAM добре працює там, де інші не вдається (сегментація екземпляра), хоча не без недоліків (конвергенція не є одноманітною)

— Алекс

2

Адам швидше сходить. SGD повільніше, але генералізується краще. Тож наприкінці все залежить від ваших конкретних обставин.

— agcala

13

Ось повідомлення в блозі, в якому розглядається стаття, в якій стверджується, що SGD є кращим узагальненим адаптером, ніж ADAM. https://shaoanlu.wordpress.com/2017/05/29/sgd-all-which-one-is-the-best-optimizer-dogs-vs-cats-toy-experiment/

Часто існує значення використання декількох методів (ансамблю), оскільки кожен метод має слабкість.

— Крістофер Клаус
джерело

5

Слід також поглянути на цю публікацію, порівнюючи різні оптимізатори спуску градієнта. Як ви бачите нижче, Адам, очевидно, не найкращий оптимізатор для деяких завдань, оскільки більшість сходяться краще.

Тільки для запису: у пов'язаній статті вони згадують деякі недоліки ADAM і представляють AMSGrad як рішення. Однак вони роблять висновок, що чи AMSGrad перевершує ADAM на практиці (на момент написання документації) не є переконливим.

— Лус