2
Чому RNN з одиницями LSTM також можуть страждати від "вибуху градієнтів"?
У мене є основні знання про те, як працюють RNN (і, зокрема, з одиницями LSTM). У мене є живописне уявлення про архітектуру блоку LSTM, тобто клітинки та декількох воріт, які регулюють потік значень. Однак, мабуть, я не до кінця зрозумів, як LSTM вирішує проблему "зникаючих та вибухаючих градієнтів", яка виникає …