Які переваги складання декількох LSTM?

25

Які переваги, чому можна використовувати декілька LSTM, складених один на один, у глибокій мережі? Я використовую LSTM, щоб представляти послідовність входів як єдиний вхід. Тож як тільки я маю це єдине представництво - чому я б його передавав знову?

Я запитую це, тому що я це бачив у програмі покоління природних мов.

— wordSmith
джерело

1

Ви дійсно мали на увазі LSTM, складені поруч, як горизонтально (по часових кроках), чи ви мали на увазі вертикально складені (кілька клітинок LSTM для кожного кроку часу)?

— Вабіт

18

Я думаю, що ви маєте на увазі вертикально складені шари LSTM (якщо вважати, що горизонтальні осі - це часова вісь.

У цьому випадку головною причиною складання LSTM є забезпечення більшої складності моделі. У випадку простої сітки для подачі даних ми укладаємо шари для створення ієрархічного представлення вхідних даних, які потім використовуватимуться для виконання якогось завдання машинного навчання. Те саме стосується і складених LSTM.

На кожному кроці LSTM, окрім періодичного введення. Якщо вхід вже є результатом шару LSTM (або шару подачі), то поточний LSTM може створити більш складне представлення функції поточного входу.

Тепер різниця між наявністю шару подачі між шаром введення функції та шаром LSTM і тим, що є інший шар LSTM, полягає в тому, що шар передачі вперед (скажімо, повністю з'єднаний шар) не отримує зворотного зв'язку з попереднього кроку часу і, таким чином, не може враховувати певний візерунки. Маючи замість LSTM (наприклад, використовуючи складене представлення LSTM), більш складні схеми введення можуть бути описані на кожному шарі

— Веселий
джерело

4

Осередки LSTM всередині шару вже повністю пов'язані один з одним (виходи шару мають з'єднання з усіма входами одного шару). Отже, окремі комірки вже можуть поєднувати функції поверх результатів інших комірок, все в одному шарі. Не могли б ви детальніше пояснити, чому багато шарів призводять до складніших моделей?

— danijar

6

Від {1}:

Хоча теоретично не зрозуміло, у чому полягає додаткова потужність, отримана глибшою архітектурою, емпірично було помічено, що глибокі РНН працюють краще, ніж дрібніші в деяких завданнях. Зокрема, Sutskever et al (2014) повідомляють, що глибока архітектура в 4 шари була вирішальною для досягнення хорошої машинної трансляції в рамках кодер-декодера. Irsoy та Cardie (2014) також повідомляють про покращені результати від переходу від одношарового BI-RNN до архітектури з декількома шарами. Багато інших робіт повідомляють про результат, використовуючи багатошарові архітектури RNN, але явно не порівнюють їх з одношаровими RNN.

FYI:

Те саме питання щодо Data Data Stack Exchange: Переваги складання LSTM?
Хтось укладає клітини LSTM та GRU разом і чому?

Список літератури:

{1} Гольдберг, Йоав. "Буквар для моделей нейронної мережі для обробки природних мов." Дж. Артиф. Intell. Рез. (JAIR) 57 (2016): 345-420. https://scholar.google.com/scholar?cluster=3704132192758179278&hl=uk&as_sdt=0,5 ; http://u.cs.biu.ac.il/~yogo/nnlp.pdf

— Франк Дернонкур
джерело

2

Від розігрування з LSTM для класифікації послідовностей це мало той же ефект, що і збільшення ємності моделі в CNN (якщо ви знайомі з ними). Таким чином, ви, безумовно, отримуєте прибуток, особливо якщо ви недооцінюєте свої дані.

Звичайно, подвійний кромка, оскільки ви також можете надмірно підігнати і отримати гірші показники. У моєму випадку я перейшов від 1 LSTM до стека 2 і отримав майже миттєве вдосконалення.

— InKodeWeTrust
джерело