Здається, оптимізатор адаптивного оцінювання моменту (Адама) майже завжди працює краще (швидше і надійніше досягаючи глобального мінімуму), коли мінімізує функцію витрат на навчання нейронних мереж.
Чому б не завжди використовувати Адама? Навіщо навіть турбуватися використанням RMSProp або оптимізаторів імпульсу?