Які методи оптимізації найкраще працюють для LSTM?

20

Я використовував theano для експерименту з LSTM, і мені було цікаво, які методи оптимізації (SGD, Adagrad, Adadelta, RMSprop, Adam тощо) найкраще працюють для LSTM? Чи є якісь наукові роботи на цю тему?

Також, чи залежить відповідь від типу програми, для якої я використовую LSTM? Якщо так, я використовую LSTM для класифікації тексту (де текст спочатку перетворюється на вектори слова).

Нарешті, чи були б відповіді однаковими чи різними для RNN? Будемо дуже вдячні за будь-які вказівки до наукових робіт або особисте розуміння!

LSTM здаються досить потужними, і мені цікаво дізнатися більше про те, як найкраще їх використовувати.

— яблучний сидр
джерело

7

За іронією долі кращими оптимізаторами для LSTM є самі LSTM: https://arxiv.org/abs/1606.04474 Навчання навчанню шляхом градієнтного спуску за градієнтним спуском.

Основна ідея - використовувати нейронну мережу (зокрема тут мережу LSTM) для спільного навчання та викладання градієнтів вихідної мережі. Це називається мета-навчання.

Цей метод, запропонований Юргеном Шмідхубером у 2000 році, лише нещодавно показав, що він перемагає інших оптимізаторів у навчанні RNN. (див. оригінал паперу для отримання гарної графіки)

— Анона112
джерело

Чи можете ви розширитись, сказавши нам, що говорить посилання?

— mdewey

внесені зміни для вашого задоволення. Оскільки початкове запитання було "Які методи оптимізації найкраще працюють для LSTM?" не "Як працюють найкращі методи оптимізації для LSTM", я залишаю це на цьому.

— Anona112

4

Взагалі немає чітких доказів того, який метод оптимізації використовувати в якому сценарії. Був проведений певний аналіз поведінки цих методів за різних сценаріїв, однак нічого не є переконливим. Якщо ви хочете зануритися в цей матеріал, то рекомендую: http://papers.nips.cc/paper/5486-identifying-and-attacking-the-saddle-point-problem-in-high-dim dim-no-convex- оптимізація.pdf

Для того, щоб принаймні дати вам відповідь, я стверджую, що часто конфігурація вашої програми оптимізації є важливішою, ніж сама програма.

Крім того, я рекомендую вам заглянути в статті, щоб побачити, які методи використовуються. Алекс Грейвс із прикладу користувався RMSprop протягом більшості своїх публікацій про генерування послідовностей.

— Веселий
джерело