Що є причиною того, що оптимізатор Адама вважається стійким до значення його гіпер параметрів?


24

Я читав про оптимізатора Адама для глибокого навчання і натрапив на таке речення у новій книзі « Глибоке навчання » Бенджіо, Гудфлоу та Курвіля:

Зазвичай Адам вважається досить надійним у виборі гіпер параметрів, хоча інтенсивність навчання іноді потрібно змінити із запропонованого за замовчуванням.

якщо це правда, то велика справа, тому що пошук гіперпараметрів може бути справді важливим (як мінімум, на моєму досвіді) в статистичних показниках системи глибокого навчання. Отже, моє запитання полягає в тому, чому Адам Робуст до таких важливих параметрів? Особливо і β 2 ?β1β2

Я прочитав документ Адама, і він не дає жодних пояснень, чому він працює з цими параметрами або чому його надійний. Чи виправдовують вони це в інших місцях?

Крім того, коли я читаю статтю, здається, що кількість гіпер параметрів, які вони пробували там, де дуже мала, для лише 2 і для β 2 лише 3. Як це може бути ретельне емпіричне дослідження, якщо воно працює лише на 2x3 гіперпараметри ?β1β2


1
Надішліть електронний лист авторам книги, яка подала претензію. Запитайте їх, на чому ґрунтується позов.
Марк Л. Стоун

1
@ MarkL.Stone він сказав лише, що сказав це тому, що конспект сказав це. Навряд чи переконливий аргумент. Можливо, наступного разу я надішлю електронною поштою авторам фактичної роботи.
Чарлі Паркер

7
І так самореклама стає фактом.
Марк Л. Стоун

@ MarkL.Stone на свій захист, він, можливо, був зайнятий, щоб відповісти належним чином, і я зв’язався лише з 1 з 3 авторів. Можливо, я міг би зв’язатися з іншими, але я не впевнений, чи відповідатимуть вони (принаймні) на одного - професора. Я маю на увазі, що в DL виходить, що він отримує 300 електронних листів щодня.
Чарлі Паркер

7
Тепер, коли книга вийшла, автори Адама підтвердили, наскільки великий їх алгоритм. Нагадує про землетрус затоки '89 року. Радіостанція News зробила непідтверджений звіт про # загиблих при обваленні шосе - заявила, що шукає підтвердження від кабінету губернатора. Потім вони подзвонили губернатору по телефону і запитали, чи може він підтвердити # загибель. Він сказав, що це почув. Тоді радіостанція повідомила, що тепер у них є підтвердження від губернатора. Виявляється, губернатор мав на увазі, що почув це, як виявляється, на тій радіостанції. Отже, кругове підтвердження.
Марк Л. Стоун

Відповіді:


7

Що стосується доказів стосовно претензії, я вважаю, що єдині докази, які підтверджують цю вимогу, можна знайти на рисунку 4 у їхньому документі . Вони показують кінцеві результати в діапазоні різних значень для , β 2 та α .β1β2α

β1β2 α


5

β1β2

Це в величезному контрасті з запасом ванільного стохастичного градієнта, де:

  • коефіцієнти навчання не є параметрами, але існує одна глобальна швидкість навчання, яка застосовується прямо за всіма параметрами
    • (до речі, це одна з причин, чому дані часто біліють, нормалізуються, перш ніж надсилати в мережі, щоб спробувати зберегти ідеальні ваги за параметрами схожими)
  • Наданий рівень навчання - це точний використаний рівень навчання, який не буде адаптуватися з часом

Адам - ​​не єдиний оптимізатор з адаптивними показниками навчання. Як зазначає документ Адама, він дуже пов'язаний з Адаградом і Rmsprop, які також надзвичайно нечутливі до гіперпараметрів. Тим більше, Rmsprop працює досить непогано.

Але Адам - ​​найкращий загалом. За дуже невеликими винятками Адам зробить те, що вам хочеться :)

Є кілька досить патологічних випадків, коли Адам не буде працювати, особливо для деяких дуже нестаціонарних розподілів. У цих випадках Rmsprop є чудовим варіантом очікування. Але в цілому для більшості непатологічних випадків Адам працює надзвичайно добре.


1
β1,β2

Так, якщо ви маєте на увазі, "чи є тут можливість вивчити глибше, чому?", Ну ​​... можливо.
Х'ю Перкінс

2
це не "глибше питання". Це, здається, один із найважливіших пунктів статті, ні? Вся справа в тому, що вона робить все "само собою", але є й інші гіперпараметри, які здаються магічно надійними. У цьому питання у мене є. Мені здається, це пов’язано з основою статті, якщо я неправильно зрозумів точку Адама.
Чарлі Паркер

"Є кілька досить патологічних випадків, коли Адам не буде працювати, особливо для деяких дуже нестаціонарних розподілів". <- будь-які посилання тут?
міморалія

0

Дивлячись на формули ADAM, здається трохи спантеличним, що після дуже великої кількості пакетних ітерацій (скажімо, ~ 400 к) величина оригінальної помилки, градієнта сама по собі грає ~ ніякої фактичної ролі в зробленому кроці, який, схоже, не прагне параметр конфігурації швидкості навчання у відповідному знаку.
Можливо, ADAM керує адаптацією ваги краще, ніж простий SGD під час перших ітерацій / епох, але продовження оновлення здається зведеним до чогось наївного (?) Чи може хто-небудь надати інтуїцію, чому це насправді бажано та / або прагне добре працювати?


Насправді здається, що величина градієнта на основі помилок сама по собі не грає реальної ролі навіть у старті. Питання полягає в тому, чому така нормалізація працює добре, і що вона має на увазі щодо інтуїції ГД, що керує DL та іншими поширеними моделями навчання?
Денні Росен
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.