Чому важливо включити термін корекції зміщення для оптимізатора Адама для глибокого навчання?

Я читав про оптимізатора Адама для глибокого навчання і натрапив на таке речення у новій книзі « Глибоке навчання » Беґніо, Гудфллоу та Кортвіла:

Адам включає коригування зміщення оцінок як моментів першого порядку (термін імпульсу), так і (безцентрованих) моментів другого порядку для обліку їх ініціалізації при початку.

видається, що основною причиною включення цих термінів виправлення зміщення є те, що якимось чином усуває зміщення ініціалізації $m_t = 0$ і $v_t = 0$ .

Я не на 100% впевнений, що це означає, але мені здається, що це, ймовірно, означає, що перший і другий момент починаються з нуля і якось починають його з нульового нахилу значення ближче до нуля несправедливим (або корисним) способом навчання ?
Хоча я хотів би знати, що це означає трохи точніше і як це шкодить навчанню. Зокрема, якими перевагами має оптимізатор, що не підключає зусилля, щодо оптимізації?
Як це допомагає навчанню моделей глибокого навчання?
Крім того, що це означає, коли він неупереджений? Мені відомо, що означає неупереджене стандартне відхилення, але мені незрозуміло, що це означає в цьому контексті.
Чи є корекція зміщення дійсно великою справою чи щось переоцінено в роботі оптимізатора Адама?

Просто люди знають, що я дуже важко намагався зрозуміти оригінальний папір, але мені дуже мало вдається прочитати і перечитати оригінал. Я припускаю, що на деякі з цих питань можна відповісти там, але я, здається, не можу розібрати відповіді.

— Чарлі Паркер
джерело

Посилання: arxiv.org/pdf/1412.6980v8.pdf Оцінки градієнта 1-го та 2-го моменту оновлюються за допомогою ковзної середньої величини і починаються з того, що обидва estimat4es дорівнюють нулю. , оскільки початкові оцінки нуля лише поступово вимирають. Я не розумію, чому градієнт у початковій точці не використовується для початкових значень цих речей, а потім оновлення першого параметра. Тоді не було б забруднення початковими нульовими значеннями, яке повинно бути скасовано. Так що не було б потреби в корекції зміщення.

— Марк Л. Стоун

Отож, схоже, що замість того, щоб мати спеціальний код для початкової ітерації, автори вирішили зробити математично рівнозначну річ, ввівши те, що було б зміщенням, а потім скасували його. Це додає зайвих, хоча і швидких, розрахунків за всіма ітераціями. Тим не менш, вони підтримували чистоту коду, який виглядає однаково на всіх ітераціях. Я б тільки почав з першого оцінювання градієнта, а формула оновлення моменту градієнта починалася лише з 2-ї ітерації.

— Марк Л. Стоун

@ MarkL.Stone автори наголошують настільки на коригуванні упередженості, що мені здалося, що це є новим чи важливим у їхньому документі. Так вони могли просто не «виправити ухил» і мати той самий алгоритм? Якщо це правда, я не розумію, чому Адам є таким важливим оптимізатором чи в чому полягає велика справа. Я завжди думав, що це корекція зміщення.

— Чарлі Паркер

Вони вводять упередження, а потім виправляють його, без жодних вагомих причин. Це як множення на 2 (о, мій, результат упереджений), а потім ділення на 2, щоб "виправити" його. Вся справа з упередженням введення та видалення здається непотрібною стороною. Можливо, папір виявилася недостатньо довгою, не зробивши цього, тому вони додали цей шпиль, щоб зробити його довше :) Адам, можливо, має свої заслуги, але вони будуть так само, як це я запропонував. Я хотів би, щоб автори завітали сюди і пояснили це. Можливо, я пропускаю якусь тонку точку або щось нерозумію.

— Марк Л. Стоун

Проблема НЕ виправлення зміщення
відповідно до статті

У разі розріджених градієнтів для надійної оцінки другого моменту потрібно провести середнє значення за багатьма градієнтами, вибравши невелике значення β2; однак саме цей випадок малого β2, коли відсутність корекції зсуву ініціалізації призведе до початкових кроків, значно більших.

$\beta_2$ $\beta_1$ $\beta_2=0.999$ $\beta_1=0.9$ $1-\beta_2=0.001$ $1-\beta_1=0.1$

$m_1=0.1g_t$ $v_1=0.001g_t^2$ $m_1/(\sqrt{v_1}+\epsilon)$

$\hat{m_1}=g_1$ $\hat{v_1}=g_1^2$ $\hat{m_t}/(\sqrt{\hat{v_t}}+\epsilon)$ $\beta_1$ $\beta_2$

$m_0$ $m_t=\beta m_{t-1}+(1-\beta)g_t$ $m_0$

$m_1=\beta m_0+(1-\beta)g_t$ $\beta m_0$ $m_1$ $(1-\beta)$ $\hat{m_1}=(m_1- \beta m_0)/(1-\beta)$ $m_0=0$ $\hat{m_t}=m_t/(1-\beta^t)$

Як добре прокоментував Марк Л. Стоун

Це як множення на 2 (о, мій, результат упереджений), а потім ділення на 2, щоб "виправити" його.

Якось це не зовсім рівнозначно

для початкових значень цих речей використовується градієнт у початковій точці, а потім оновлення першого параметра

(звичайно, можна перетворити його в ту ж форму, змінивши правило оновлення (див. оновлення відповіді), і я вважаю, що цей рядок головним чином має на меті показати непотрібність введення упередженості, але, можливо, варто помітити різницю)

Наприклад, виправлений перший момент часу 2

\hat{m_{2}} = \frac{β (1 - β) g_{1} + (1 - β) g_{2}}{1 - β^{2}} = \frac{β g_{1} + g_{2}}{β + 1}

$\hat{m_2}=\frac{\beta(1-\beta)g_1+(1-\beta)g_2}{1-\beta^2}=\frac{\beta g_1+g_2}{\beta+1}$

$g_1$

m_{2} = β g_{1} + (1 - β) g_{2}

$m_2=\beta g_1+(1-\beta)g_2$

g_{1}

$g_1$

Чи є корекція зміщення справді великою справою,
оскільки вона насправді впливає лише на перші кілька кроків навчання, це здається не дуже великою проблемою, у багатьох популярних рамках (наприклад, керах , кафе ) реалізується лише упереджена оцінка.

$\epsilon$

$\hat{m}_t$

{\hat{m}}_{t} = \frac{β^{t - 1} g_{1} + β^{t - 2} g_{2} + . . . + g_{t}}{β^{t - 1} + β^{t - 2} + . . . + 1}

$\hat{m}_t=\frac{\beta^{t-1}g_1+\beta^{t-2}g_2+...+g_t}{\beta^{t-1}+\beta^{t-2}+...+1}$

$m_1\leftarrow g_1$

$\qquad m_t\leftarrow \beta m_t + g_t$
$\qquad \hat{m}_t\leftarrow \dfrac{(1-\beta)m_t}{1-\beta^t}$

Тому це можливо зробити без введення терміна зміщення та виправлення. Я думаю, що стаття розмістила його у формі виправлення зміщення для зручності порівняння з іншими алгоритмами (наприклад, RmsProp).

— dontloo
джерело

Чи згодні ви з моїм другим коментарем до питання? Для мене це суть. Справа у множенні та діленні на 2 повинна була бути просто "зрозумілою" аналогією, а не математикою, що використовується в даній справі. якщо були інші документи, на які я не дивився, які ввели зміщення за тим самим механізмом, який у випадку ADAM видається цілком уникнутим, але не виправив, то це просто повністю СТУПІД (якщо якимось чином упередження допоміг виконувати алгоритм).

— Марк Л. Стоун

@ MarkL.Stone так! насправді я виступив з цим, вибачте за мою англійську. і я думаю, що алгоритм, який не виправив зміщення, - це rmsprop, але на відміну від Адама rmsprop добре працює з ухилом.

— dontloo

@dontloo чи відповідає ваша відповідь на коментар Марка Л. Стоун про те, чому корекція зміщення здається зайвою? (На мою думку, це досить важливо, можливо, навіть більше, ніж перефразовувати те, що йдеться в оригінальному документі).

— Чарлі Паркер

@CharlieParker Ви маєте на увазі, чому корекція зміщення є зайвою або чому автор робить це виглядати зайвим?

— dontloo

@dontloo Я не думаю, що автори роблять це зайвим. Я думав, що вони дійсно потребують цього (враховуючи їх конкретні умови). Однак я подумав, що з огляду на пропозицію Марка це не потрібно. Я думаю, що моє запитання в розділі коментарів зараз полягає в тому, чи дійсно їм потрібен термін виправлення.

— Чарлі Паркер