Запитання з тегом «lstm»

Довга короткострокова пам'ять (LSTM) - це нейронна мережева архітектура, що містить повторювані NN-блоки, здатні запам'ятовувати значення на довільний проміжок часу.

4
Як LSTM запобігає проблемі градієнта, що зникає?
LSTM був винайдений спеціально для уникнення проблеми, що втрачає градієнт. Це слід зробити з каруселем постійної помилки (CEC), який на наведеній нижче схемі (від Greff et al. ) Відповідає циклу навколо комірки . (джерело: deeplearning4j.org ) І я розумію, що цю частину можна розглядати як якусь функцію тотожності, тому похідна …

5
Розуміння одиниць LSTM та клітин
Я вивчав LSTM деякий час. Я на високому рівні розумію, як все працює. Тим НЕ менше, збирається реалізувати їх з допомогою Tensorflow я помітив , що BasicLSTMCell вимагає кількість одиниць (тобто num_units) параметра. З цього дуже ретельного пояснення LSTM я зрозумів, що одна одиниця LSTM - це одне з наступних …

1
Зниження тренувань знову зменшується. Що відбувається?
Моя втрата тренувань знижується, а потім знову вгору. Це дуже дивно. Втрата перехресної перевірки відстежує втрати тренувань. Що відбувається? У мене є два складених LSTMS наступним чином (на Keras): model = Sequential() model.add(LSTM(512, return_sequences=True, input_shape=(len(X[0]), len(nd.char_indices)))) model.add(Dropout(0.2)) model.add(LSTM(512, return_sequences=False)) model.add(Dropout(0.2)) model.add(Dense(len(nd.categories))) model.add(Activation('sigmoid')) model.compile(loss='binary_crossentropy', optimizer='adadelta') Я навчаю це протягом 100 епох: …

3
Які переваги складання декількох LSTM?
Які переваги, чому можна використовувати декілька LSTM, складених один на один, у глибокій мережі? Я використовую LSTM, щоб представляти послідовність входів як єдиний вхід. Тож як тільки я маю це єдине представництво - чому я б його передавав знову? Я запитую це, тому що я це бачив у програмі покоління …

1
Які саме механізми уваги?
Механізми уваги були використані в різних документах поглибленого навчання за останні кілька років. Ілля Суцкевер, керівник досліджень Open AI, захоплено похвалив їх: https://towardsdatascience.com/the-fall-of-rnn-lstm-2d1594c74ce0 Евгеніо Кулурчелло з університету Пердю заявив, що RNN та LSTM повинні бути відмовлені на користь суто нейронних мереж, орієнтованих на увагу: https://towardsdatascience.com/the-fall-of-rnn-lstm-2d1594c74ce0 Це здається перебільшенням, але безперечно, …

3
Розуміння параметра input_shape в LSTM з Keras
Я намагаюся використовувати приклад, описаний в документації Keras під назвою "Складений LSTM для класифікації послідовностей" (див. Код нижче) і не можу визначити input_shapeпараметр у контексті моїх даних. Я маю на увазі матрицю послідовностей з 25 можливих символів, закодованих цілими числами, до вкладеної послідовності максимальної довжини 31. В результаті мій x_trainмає …
20 lstm  keras  shape  dimensions 

4
Різниця між зворотним зв'язком RNN та LSTM / GRU
Я намагаюся зрозуміти різні архітектури періодичної нейронної мережі (RNN), які слід застосувати до даних часових рядів, і я дещо плутаюсь з різними іменами, які часто використовуються при описі RNN. Чи структура структури довготривалої пам'яті (LSTM) та рецидивуючого блоку (GU) по суті є RNN з циклом зворотного зв'язку?

2
Які методи оптимізації найкраще працюють для LSTM?
Я використовував theano для експерименту з LSTM, і мені було цікаво, які методи оптимізації (SGD, Adagrad, Adadelta, RMSprop, Adam тощо) найкраще працюють для LSTM? Чи є якісь наукові роботи на цю тему? Також, чи залежить відповідь від типу програми, для якої я використовую LSTM? Якщо так, я використовую LSTM для …

3
Чому ваги мереж RNN / LSTM розподіляються впродовж часу?
Нещодавно я зацікавився LSTM, і я з подивом дізнався, що ваги діляться з часом. Я знаю, що якщо ви поділяєте ваги протягом часу, то ваші послідовності введення часу можуть бути різної довжини. З загальною вагою у вас є набагато менше параметрів для тренування. З мого розуміння, причина, з якої можна …

3
Використання RNN (LSTM) для прогнозування векторів таймсерій (Theano)
У мене дуже проста проблема, але я не можу знайти правильний інструмент для її вирішення. У мене є деяка послідовність векторів однакової довжини. Тепер я хотів би навчити LSTM RNN на зразку поїздів цих послідовностей, а потім змусити його передбачити нову послідовність векторів довжиною на основі декількох векторів праймінгу .ннn …

3
Різниця між зразками, часовими кроками та особливостями нейронної мережі
Я переглядаю такий блог у нейронній мережі LSTM: http://machinelearningmastery.com/understanding-stateful-lstm-recurrent-neural-networks-python-keras/ Автор переробляє вхідний вектор X як [зразки, часові кроки, особливості] для різної конфігурації LSTM. Автор пише Дійсно, послідовності літер є часовими кроками однієї ознаки, а не одним часовим кроком окремих ознак. Ми надали більше контексту для мережі, але не більше послідовності, …

1
Яка можлива довжина послідовності для моделювання RNN?
Я розглядаю можливість використання версії LSTM ( довготривалої пам'яті ) періодичної нейронної мережі (RNN) для моделювання даних таймерів. Зі збільшенням довжини послідовності даних збільшується складність мережі. Тому мені цікаво, яку довжину послідовностей можна було б моделювати з хорошою точністю? Я хотів би використати порівняно просту версію LSTM без будь-яких складних …

1
RNN: Коли застосовувати BPTT та / або оновлювати ваги?
Я намагаюся зрозуміти застосування високого рівня RNN для маркування послідовностей через (серед інших) документ Graves '2005 про класифікацію фонеми. Підсумовуючи проблему: у нас є великий навчальний набір, що складається з (вхідних) аудіофайлів з одиночних пропозицій та (вихідних) часу початку роботи, часу зупинки та міток для окремих фонем (включаючи декілька "спеціальних" …
15 lstm  rnn 

1
Запобігання надмірному набору LSTM на невеликих наборах даних
Я моделюю 15000 твітів для прогнозування настроїв, використовуючи одношаровий LSTM з 128 прихованими одиницями, використовуючи Word2vec-подібне представлення з 80 вимірами. Я отримую точність спуску (38% з випадковим = 20%) після 1 епохи. Якщо більше тренувань, точність валідації починає знижуватися, коли точність тренування починає підніматися - явна ознака надягання. Тому я …

1
Як тренувати LSTM шар глибокої мережі
Для класифікації тексту я використовую lstm та мережу перекладу каналів. Я перетворюю текст в гарячі вектори і подаю кожен в lstm, щоб я міг його узагальнити як єдине подання. Потім я подаю його в іншу мережу. Але як я треную lstm? Я просто хочу, щоб текст класифікував послідовність - чи …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.