Які переваги складання декількох LSTM?


25

Які переваги, чому можна використовувати декілька LSTM, складених один на один, у глибокій мережі? Я використовую LSTM, щоб представляти послідовність входів як єдиний вхід. Тож як тільки я маю це єдине представництво - чому я б його передавав знову?

Я запитую це, тому що я це бачив у програмі покоління природних мов.


1
Ви дійсно мали на увазі LSTM, складені поруч, як горизонтально (по часових кроках), чи ви мали на увазі вертикально складені (кілька клітинок LSTM для кожного кроку часу)?
Вабіт

Відповіді:


18

Я думаю, що ви маєте на увазі вертикально складені шари LSTM (якщо вважати, що горизонтальні осі - це часова вісь.

У цьому випадку головною причиною складання LSTM є забезпечення більшої складності моделі. У випадку простої сітки для подачі даних ми укладаємо шари для створення ієрархічного представлення вхідних даних, які потім використовуватимуться для виконання якогось завдання машинного навчання. Те саме стосується і складених LSTM.

На кожному кроці LSTM, окрім періодичного введення. Якщо вхід вже є результатом шару LSTM (або шару подачі), то поточний LSTM може створити більш складне представлення функції поточного входу.

Тепер різниця між наявністю шару подачі між шаром введення функції та шаром LSTM і тим, що є інший шар LSTM, полягає в тому, що шар передачі вперед (скажімо, повністю з'єднаний шар) не отримує зворотного зв'язку з попереднього кроку часу і, таким чином, не може враховувати певний візерунки. Маючи замість LSTM (наприклад, використовуючи складене представлення LSTM), більш складні схеми введення можуть бути описані на кожному шарі


4
Осередки LSTM всередині шару вже повністю пов'язані один з одним (виходи шару мають з'єднання з усіма входами одного шару). Отже, окремі комірки вже можуть поєднувати функції поверх результатів інших комірок, все в одному шарі. Не могли б ви детальніше пояснити, чому багато шарів призводять до складніших моделей?
danijar

6

Від {1}:

Хоча теоретично не зрозуміло, у чому полягає додаткова потужність, отримана глибшою архітектурою, емпірично було помічено, що глибокі РНН працюють краще, ніж дрібніші в деяких завданнях. Зокрема, Sutskever et al (2014) повідомляють, що глибока архітектура в 4 шари була вирішальною для досягнення хорошої машинної трансляції в рамках кодер-декодера. Irsoy та Cardie (2014) також повідомляють про покращені результати від переходу від одношарового BI-RNN до архітектури з декількома шарами. Багато інших робіт повідомляють про результат, використовуючи багатошарові архітектури RNN, але явно не порівнюють їх з одношаровими RNN.

FYI:


Список літератури:


2

Від розігрування з LSTM для класифікації послідовностей це мало той же ефект, що і збільшення ємності моделі в CNN (якщо ви знайомі з ними). Таким чином, ви, безумовно, отримуєте прибуток, особливо якщо ви недооцінюєте свої дані.

Звичайно, подвійний кромка, оскільки ви також можете надмірно підігнати і отримати гірші показники. У моєму випадку я перейшов від 1 LSTM до стека 2 і отримав майже миттєве вдосконалення.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.