То в чому спіймана LSTM?


12

Я розширюю свої знання щодо пакету Keras і оснащую деякі доступні моделі. У мене є проблема бінарної класифікації NLP, яку я намагаюся вирішити і застосовую різні моделі.

Працюючи з деякими результатами і читаючи все більше і більше про LSTM, здається, що цей підхід є набагато кращим за все, що я спробував (у кількох наборах даних). Я продовжую думати собі: "чому / коли ти б не використовував LSTM?". Використання додаткових воріт, притаманних LSTM, має для мене ідеальний сенс після наявності деяких моделей, які страждають від зникаючих градієнтів.

То в чому спіймана LSTM? Де вони не так добре роблять? Я знаю, що немає такого поняття, як алгоритм "один розмір, який підходить усім", тому LSTM повинен бути недоліком.


Спробуйте GRU, вони схожі на LSTM, але вимагають менше пам’яті та швидше тренуватися.
Vivek Khetan

Відповіді:


11

Ви маєте рацію, що LSTM дуже добре справляються з деякими проблемами, але деякі недоліки:

  • Тренуватися до LSTM потрібно більше часу
  • Для навчання LSTM потрібно більше пам'яті
  • LSTM легко подолати
  • Викид набагато складніше реалізувати в LSTM
  • LSTM чутливі до різних випадкових ініціалізацій ваги

Вони порівняно з такою простою моделлю, як 1D мережа конвеєрів, наприклад.

Перші три пункти пояснюються тим, що у LSTM більше параметрів.


3
Погоджено, і я вважаю, що перевиконання (він же поганий узагальнення) є чи не найбільшим ризиком. Переконайтеся, що у вас є добра стратегія для перевірки моделі.
Том
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.