Що таке LSTM, BiLSTM і коли їх використовувати?


11

Я дуже новачок у глибокому навчанні, і мені особливо цікаво знати, що таке LSTM та BiLSTM та коли їх використовувати (основні сфери застосування). Чому LSTM і BILSTM популярніші за RNN?

Чи можемо ми використовувати ці архітектури глибокого навчання у непідконтрольних проблемах?


2
BiLSTM означає двонаправлений LSTM, який означає, що сигнал поширюється назад, а також вперед у часі. Ви також можете застосувати цю архітектуру до інших RNN. Для детальної інформації прочитайте en.wikipedia.org/wiki/Bidirectional_recurrent_neural_networks та colah.github.io/posts/2015-08-Поняття-LSTMs Ласкаво просимо на сайт!
Емре

Ось пост , різниця між RNN та LSTM, і ось блог, щоб продемонструвати різницю між LSTM та Bidirectional-LTSM
Benyamin

Відповіді:


7

RNNтакі архітектури, як LSTMі BiLSTMвикористовуються в тих випадках, коли проблема навчання є послідовною, наприклад, у вас є відео, і ви хочете знати, що це все, або ви хочете, щоб агент прочитав для вас рядок документа, який є зображенням тексту і є не у текстовому форматі. Я настійно закликаю вас поглянути тут .

LSTMsі їх двонаправлені варіанти популярні, оскільки вони намагалися навчитися, як і коли забути, а коли не використовувати ворота в їх архітектурі. У попередніх RNNархітектурах великі проблеми були зниклими градієнтами і змусили ці мережі не так вчитись.

Використовуючи двонаправлене LSTMs, ви подаєте алгоритм навчання вихідними даними один раз від початку до кінця та один раз від кінця до початку. Тут є дебати, але він зазвичай вчиться швидше, ніж однонаправлений підхід, хоча це залежить від завдання.

Так, ви можете використовувати їх і в навчанні без нагляду, залежно від вашого завдання. погляньте тут і тут .


1
Велике спасибі за чудову відповідь. Чи можемо ми використовувати lstm для вилучення ключових слів у NLP?
Волька

насправді існує багато паперів про них, наприклад, ви можете побачити тут і тут .
Медіа

Дуже дякую. Мене просто цікавить, чи є підхід до глибокого вилучення ключових слів, який ми можемо використовувати?
Волка

насправді я не бачив, можливо, краще це запитати :)
Медіа

4

Люди не починають мислення з нуля щосекунди. Читаючи цей твір, ви розумієте кожне слово, грунтуючись на розумінні попередніх слів. Ти не кидаєш все і знову починаєш думати з нуля. Ваші думки мають наполегливість.

Традиційні нейронні мережі не можуть цього зробити, і це здається головним недоліком. Наприклад, уявіть, що ви хочете класифікувати, яка подія відбувається у кожній точці фільму. Незрозуміло, як традиційна нейронна мережа могла б використовувати свої міркування про попередні події у фільмі для інформування про пізніші.

Постійні нейронні мережі вирішують це питання. Вони являють собою мережі з петлями в них, що дозволяють зберігати інформацію.

Для подальшого читання це перейдіть до блогу Коена


2

У порівнянні з LSTM, BLSTMабо BiLSTMмає дві мережі, одна pastінформація доступу в forwardнапрямку, а інша доступ futureу reverseнапрямку. ВІКІ

BidirectionalДоданий новий клас відповідно до офіційного документа тут :

model = Sequential()
model.add(Bidirectional(LSTM(num_channels, 
        implementation = 2, recurrent_activation = 'sigmoid'),
        input_shape=(input_length, input_dim)))

Повний приклад використання даних IMDB буде таким

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.