Які методи оптимізації найкраще працюють для LSTM?


20

Я використовував theano для експерименту з LSTM, і мені було цікаво, які методи оптимізації (SGD, Adagrad, Adadelta, RMSprop, Adam тощо) найкраще працюють для LSTM? Чи є якісь наукові роботи на цю тему?

Також, чи залежить відповідь від типу програми, для якої я використовую LSTM? Якщо так, я використовую LSTM для класифікації тексту (де текст спочатку перетворюється на вектори слова).

Нарешті, чи були б відповіді однаковими чи різними для RNN? Будемо дуже вдячні за будь-які вказівки до наукових робіт або особисте розуміння!

LSTM здаються досить потужними, і мені цікаво дізнатися більше про те, як найкраще їх використовувати.

Відповіді:


7

За іронією долі кращими оптимізаторами для LSTM є самі LSTM: https://arxiv.org/abs/1606.04474 Навчання навчанню шляхом градієнтного спуску за градієнтним спуском.

Основна ідея - використовувати нейронну мережу (зокрема тут мережу LSTM) для спільного навчання та викладання градієнтів вихідної мережі. Це називається мета-навчання.

Цей метод, запропонований Юргеном Шмідхубером у 2000 році, лише нещодавно показав, що він перемагає інших оптимізаторів у навчанні RNN. (див. оригінал паперу для отримання гарної графіки)


Чи можете ви розширитись, сказавши нам, що говорить посилання?
mdewey

внесені зміни для вашого задоволення. Оскільки початкове запитання було "Які методи оптимізації найкраще працюють для LSTM?" не "Як працюють найкращі методи оптимізації для LSTM", я залишаю це на цьому.
Anona112

4

Взагалі немає чітких доказів того, який метод оптимізації використовувати в якому сценарії. Був проведений певний аналіз поведінки цих методів за різних сценаріїв, однак нічого не є переконливим. Якщо ви хочете зануритися в цей матеріал, то рекомендую: http://papers.nips.cc/paper/5486-identifying-and-attacking-the-saddle-point-problem-in-high-dim dim-no-convex- оптимізація.pdf

Для того, щоб принаймні дати вам відповідь, я стверджую, що часто конфігурація вашої програми оптимізації є важливішою, ніж сама програма.

Крім того, я рекомендую вам заглянути в статті, щоб побачити, які методи використовуються. Алекс Грейвс із прикладу користувався RMSprop протягом більшості своїх публікацій про генерування послідовностей.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.