Я моделюю 15000 твітів для прогнозування настроїв, використовуючи одношаровий LSTM з 128 прихованими одиницями, використовуючи Word2vec-подібне представлення з 80 вимірами. Я отримую точність спуску (38% з випадковим = 20%) після 1 епохи. Якщо більше тренувань, точність валідації починає знижуватися, коли точність тренування починає підніматися - явна ознака надягання.
Тому я думаю про способи регуляризації. Я вважаю за краще не зменшувати кількість прихованих одиниць (128 здається трохи низьким). Зараз я використовую відмову з вірогідністю 50%, але це, можливо, може бути збільшене. Оптимізатором є Адам із типовими параметрами для Keras ( http://keras.io/optimizers/#adam ).
Які ефективні способи зменшити надмірну обробку для цієї моделі на моєму наборі даних?