Мені цікаво, в яких ситуаціях вигідніше складати LSTM?
Мені цікаво, в яких ситуаціях вигідніше складати LSTM?
Відповіді:
З чого переваги складання декількох LSTM? (Я лише оновлю відповідь там):
Від {1}:
Хоча теоретично не зрозуміло, у чому полягає додаткова потужність, здобута глибшою архітектурою, емпірично було помічено, що глибокі РНН працюють краще, ніж дрібніші в деяких завданнях. Зокрема, Sutskever et al (2014) повідомляють, що глибока архітектура в 4 шари була вирішальною в досягненні гарних результатів машинного перекладу в рамках кодера-декодера. Irsoy та Cardie (2014) також повідомляють про покращені результати від переходу від одношарового BI-RNN до архітектури з декількома шарами. Багато інших робіт повідомляють про результат, використовуючи багатошарові архітектури RNN, але явно не порівнюють їх з одношаровими RNN.
Список літератури:
- {1} Гольдберг, Йоав. "Буквар для моделей нейронної мережі для обробки природних мов." Дж. Артиф. Intell. Рез. (JAIR) 57 (2016): 345-420. https://scholar.google.com/scholar?cluster=3704132192758179278&hl=uk&as_sdt=0,5 ; http://u.cs.biu.ac.il/~yogo/nnlp.pdf
Одна з ситуацій, коли вигідно складати LSTM, - це коли ми хочемо навчитися ієрархічному представленню даних наших часових рядів. У складених LSTMs кожен шар LSTM видає послідовність векторів, які будуть використовуватися як вхід до наступного рівня LSTM. Ця ієрархія прихованих шарів дозволяє більш складно представити дані наших часових рядів, захоплюючи інформацію в різних масштабах.
Наприклад, складені LSTM можуть бути використані для підвищення точності в класифікації часових рядів, таких як прогнозування активності, в якій частота серцевих скорочень, кількість кроків, GPS та інші сигнали можуть використовуватися для прогнозування таких дій, як ходьба, біг, їзда на велосипеді, підніматися сходами або відпочивати. Для прикладу класифікації часових рядів із складеними LSTM, використовуючи дані EEG, подивіться на наступний ноутбук ipython .
У послідовності з послідовною моделлю: Завдання мережі кодера полягає в тому, щоб прочитати вхідну послідовність нашої моделі Seq2Seq та генерувати контекстний векторний вектор С для послідовності. Для цього кодер буде використовувати повторювані комірки нейронної мережі - зазвичай це LSTM - для читання вхідних маркерів по черзі. Остаточний прихований стан клітини стане C. Однак, оскільки так важко стиснути послідовність довільної довжини в один вектор фіксованого розміру (особливо для складних завдань, таких як переклад), кодер зазвичай складається з складених LSTM : серія LSTM "шарів", де виходи кожного шару є послідовністю введення для наступного шару. Прихований стан LSTM остаточного шару буде використовуватися як вектор контексту.