Я виконую експерименти над набором валідації EMNIST, використовуючи мережі з RMSProp, Adam та SGD. Я досягаю 87% точності за допомогою SGD (ступінь навчання 0,1) та випадання (0,1 випадання задачі), а також регуляризація L2 (1e-05 штраф). Перевіряючи таку саму точну конфігурацію з RMSProp та Адамом, а також початковий рівень навчання 0,001, я досягаю точності 85% та значно меншої плавної кривої тренувань. Я не знаю, як пояснити таку поведінку. Що може бути причиною недостатньої плавності кривої тренувань та досягнутої меншої точності та більш високих показників помилок?