Я використовував theano для експерименту з LSTM, і мені було цікаво, які методи оптимізації (SGD, Adagrad, Adadelta, RMSprop, Adam тощо) найкраще працюють для LSTM? Чи є якісь наукові роботи на цю тему?
Також, чи залежить відповідь від типу програми, для якої я використовую LSTM? Якщо так, я використовую LSTM для класифікації тексту (де текст спочатку перетворюється на вектори слова).
Нарешті, чи були б відповіді однаковими чи різними для RNN? Будемо дуже вдячні за будь-які вказівки до наукових робіт або особисте розуміння!
LSTM здаються досить потужними, і мені цікаво дізнатися більше про те, як найкраще їх використовувати.