То в чому спіймана LSTM?

Я розширюю свої знання щодо пакету Keras і оснащую деякі доступні моделі. У мене є проблема бінарної класифікації NLP, яку я намагаюся вирішити і застосовую різні моделі.

Працюючи з деякими результатами і читаючи все більше і більше про LSTM, здається, що цей підхід є набагато кращим за все, що я спробував (у кількох наборах даних). Я продовжую думати собі: "чому / коли ти б не використовував LSTM?". Використання додаткових воріт, притаманних LSTM, має для мене ідеальний сенс після наявності деяких моделей, які страждають від зникаючих градієнтів.

То в чому спіймана LSTM? Де вони не так добре роблять? Я знаю, що немає такого поняття, як алгоритм "один розмір, який підходить усім", тому LSTM повинен бути недоліком.

— I_Play_With_Data
джерело

Спробуйте GRU, вони схожі на LSTM, але вимагають менше пам’яті та швидше тренуватися.

— Vivek Khetan

Ви маєте рацію, що LSTM дуже добре справляються з деякими проблемами, але деякі недоліки:

Тренуватися до LSTM потрібно більше часу
Для навчання LSTM потрібно більше пам'яті
LSTM легко подолати
Викид набагато складніше реалізувати в LSTM
LSTM чутливі до різних випадкових ініціалізацій ваги

Вони порівняно з такою простою моделлю, як 1D мережа конвеєрів, наприклад.

Перші три пункти пояснюються тим, що у LSTM більше параметрів.

— Імран
джерело

Погоджено, і я вважаю, що перевиконання (він же поганий узагальнення) є чи не найбільшим ризиком. Переконайтеся, що у вас є добра стратегія для перевірки моделі.

— Том