Усі RNN мають петлі зворотного зв’язку в періодичному шарі. Це дозволяє їм зберігати інформацію у «пам'яті» протягом часу. Але, навчити стандартні RNN можуть бути важкими для вирішення проблем, які потребують вивчення довготривалих часових залежностей. Це пояснюється тим, що градієнт функції втрат експоненціально затухає з часом (називається проблемою градієнта, що зникає). Мережі LSTM - це тип RNN, який використовує спеціальні блоки на додаток до стандартних одиниць. Одиниці LSTM містять "комірку пам'яті", яка може зберігати інформацію в пам'яті протягом тривалого періоду часу. Набір воріт використовується для управління, коли інформація потрапляє в пам'ять, коли вона виводиться і коли вона забута. Ця архітектура дозволяє їм вивчити довгострокові залежності. GRU подібні до LSTM, але використовують спрощену структуру.
Цей документ дає хороший огляд:
Чунг та ін. (2014) . Емпіричне оцінювання рецидивуючих рекурентних нейронних мереж при моделюванні послідовності.