У мене є основні знання про те, як працюють RNN (і, зокрема, з одиницями LSTM). У мене є живописне уявлення про архітектуру блоку LSTM, тобто клітинки та декількох воріт, які регулюють потік значень.
Однак, мабуть, я не до кінця зрозумів, як LSTM вирішує проблему "зникаючих та вибухаючих градієнтів", яка виникає під час тренування, використовуючи зворотне поширення через час, звичайну RNN. У мене не було можливості читати документи, щоб повністю зрозуміти математику.
Ця відповідь дає коротке пояснення того, як RNN з одиницями LSTM вирішують проблему "зникаючих градієнтів". Математично причиною здається відсутність похідної, яка не зникає, тобто не прагне до нуля. Отже, автор зазначає, "існує хоча б одна стежка, де градієнт не зникає". ІМХО, це пояснення трохи розпливчасте.
Тим часом я читав статтю « Послідовність до навчання послідовності з нейронними мережами» (Ілля Суцкевер, Оріол Віньялс, Квок В. Ле), і в цьому документі, в розділі «3.4.
Хоча LSTM, як правило, не страждає від зникаючої градієнтної проблеми, вони можуть мати вибухові градієнти.
Я завжди думав, що RNN з одиницями LSTM вирішують і проблеми "зникаючих", і "вибухових градієнтів", але, мабуть, RNN з одиницями LSTM також страждають від "вибуху градієнтів".
Інтуїтивно, чому це? Математично, які причини?