Я читав про оптимізатора Адама для глибокого навчання і натрапив на таке речення у новій книзі « Глибоке навчання » Бенджіо, Гудфлоу та Курвіля:
Зазвичай Адам вважається досить надійним у виборі гіпер параметрів, хоча інтенсивність навчання іноді потрібно змінити із запропонованого за замовчуванням.
якщо це правда, то велика справа, тому що пошук гіперпараметрів може бути справді важливим (як мінімум, на моєму досвіді) в статистичних показниках системи глибокого навчання. Отже, моє запитання полягає в тому, чому Адам Робуст до таких важливих параметрів? Особливо і β 2 ?
Я прочитав документ Адама, і він не дає жодних пояснень, чому він працює з цими параметрами або чому його надійний. Чи виправдовують вони це в інших місцях?
Крім того, коли я читаю статтю, здається, що кількість гіпер параметрів, які вони пробували там, де дуже мала, для лише 2 і для β 2 лише 3. Як це може бути ретельне емпіричне дослідження, якщо воно працює лише на 2x3 гіперпараметри ?