Я розширюю свої знання щодо пакету Keras і оснащую деякі доступні моделі. У мене є проблема бінарної класифікації NLP, яку я намагаюся вирішити і застосовую різні моделі.
Працюючи з деякими результатами і читаючи все більше і більше про LSTM, здається, що цей підхід є набагато кращим за все, що я спробував (у кількох наборах даних). Я продовжую думати собі: "чому / коли ти б не використовував LSTM?". Використання додаткових воріт, притаманних LSTM, має для мене ідеальний сенс після наявності деяких моделей, які страждають від зникаючих градієнтів.
То в чому спіймана LSTM? Де вони не так добре роблять? Я знаю, що немає такого поняття, як алгоритм "один розмір, який підходить усім", тому LSTM повинен бути недоліком.