Чому RNN з одиницями LSTM також можуть страждати від "вибуху градієнтів"?


13

У мене є основні знання про те, як працюють RNN (і, зокрема, з одиницями LSTM). У мене є живописне уявлення про архітектуру блоку LSTM, тобто клітинки та декількох воріт, які регулюють потік значень.

Однак, мабуть, я не до кінця зрозумів, як LSTM вирішує проблему "зникаючих та вибухаючих градієнтів", яка виникає під час тренування, використовуючи зворотне поширення через час, звичайну RNN. У мене не було можливості читати документи, щоб повністю зрозуміти математику.

Ця відповідь дає коротке пояснення того, як RNN з одиницями LSTM вирішують проблему "зникаючих градієнтів". Математично причиною здається відсутність похідної, яка не зникає, тобто не прагне до нуля. Отже, автор зазначає, "існує хоча б одна стежка, де градієнт не зникає". ІМХО, це пояснення трохи розпливчасте.

Тим часом я читав статтю « Послідовність до навчання послідовності з нейронними мережами» (Ілля Суцкевер, Оріол Віньялс, Квок В. Ле), і в цьому документі, в розділі «3.4.

Хоча LSTM, як правило, не страждає від зникаючої градієнтної проблеми, вони можуть мати вибухові градієнти.

Я завжди думав, що RNN з одиницями LSTM вирішують і проблеми "зникаючих", і "вибухових градієнтів", але, мабуть, RNN з одиницями LSTM також страждають від "вибуху градієнтів".

Інтуїтивно, чому це? Математично, які причини?

Відповіді:


12

Дуже коротка відповідь:

LSTM розв'язує стан комірок (як правило, позначається c) та прихованим шаром / виводом (як правило, позначається h), і лише оновлює додатки c, що робить пам'ять cбільш стабільними. Таким чином градієнт, що протікає через c, зберігається і важко зникає (тому загальний градієнт важко зникнути). Однак інші шляхи можуть спричинити вибух градієнта.


Більш детальна відповідь з математичним поясненням:

Давайте спочатку розглянемо механізм CEC (Constant Error Carousel). ЦВК каже, що від кроку tдо часу t+1, якщо ворота забуття дорівнює 1 (в оригінальному папері LSTM немає жодного замку забуття, тому це завжди так), градієнт може протікати без змін. Дотримуючись формул BPTT у папері LSTM: Додаток Адисеї простір пошуку A Space ( у статті є в іншій літературі), потік CEC фактично відповідає рівнянню δ c t = + δ c t + 1f t + 1 . Коли фгл/гcтyhδcт=+δcт+1fт+1 близький до 1,δ c t + 1 накопичується доδ c t без втрат.fт+1δcт+1δcт

cтcт+1утот+1ут+1δутRоТδот+1δут+1RоТδот+2RоТRiТ,RfТ,RzТ

Довідка:

К. Грефф, Р. К. Срівастава, Дж. Кутнік, Б. Р. Стюнебрінк та Дж. Шмідхубер. LSTM: Одисея пошукового простору. CoRR, abs / 1503.04069, 2015.


Чи можете ви включити повне цитування цього документу? Посилання, як правило, відмирають.
mkt - Відновити Моніку

2
@mkt Дякую за пораду. Насправді це дуже відомий папір, і посилання йде на arXiv, тому воно, ймовірно, не загине, lol ~ Але обов'язково перевірте версію v1 (Тому що поточна версія v2 не містить додаток).
соліце

Дякуємо, що все-таки додали його та докладно про додаток.
mkt - Відновити Моніку

Чудова відповідь, я зазвичай не коментую ставити +1, але це заслуговує на це. Показано фактичний приклад з матричною алгеброю можливо нестабільних шляхів у комірці LSTM точно відповідає ОП.
DeltaIV

3

0,992000,134
1200=1
1.0120013

Однак є ще деякі шляхи, через які градієнт може стати нестабільним, і чим більша мережа, тим більше ймовірність, що ти зіткнешся з цією проблемою.


3
Чому це відповість на моє запитання? Я хотів би дізнатися деталі.
nbro
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.