Запобігання надмірному набору LSTM на невеликих наборах даних


13

Я моделюю 15000 твітів для прогнозування настроїв, використовуючи одношаровий LSTM з 128 прихованими одиницями, використовуючи Word2vec-подібне представлення з 80 вимірами. Я отримую точність спуску (38% з випадковим = 20%) після 1 епохи. Якщо більше тренувань, точність валідації починає знижуватися, коли точність тренування починає підніматися - явна ознака надягання.

Тому я думаю про способи регуляризації. Я вважаю за краще не зменшувати кількість прихованих одиниць (128 здається трохи низьким). Зараз я використовую відмову з вірогідністю 50%, але це, можливо, може бути збільшене. Оптимізатором є Адам із типовими параметрами для Keras ( http://keras.io/optimizers/#adam ).

Які ефективні способи зменшити надмірну обробку для цієї моделі на моєму наборі даних?


У мене точно така ж проблема. Як вам нарешті вдалося регулювати свою LSTM? Точність перевірки мого LSTM - 41%. Моя форма введення (200,), і у мене є 1 LSTM шар з 64 одиницями, а потім 2 щільні шари з випаданням 0,4.
Nirvan Anjirbag

Відповіді:


8

Ви можете спробувати:

  • Зменшіть кількість прихованих одиниць, я знаю, ви сказали, що це вже здається низьким, але враховуючи, що вхідний шар має лише 80 функцій, насправді може статися, що 128 занадто багато. Основне правило полягає в тому, щоб кількість прихованих одиниць знаходилось між кількістю вхідних одиниць (80) та класами виводу (5);
  • Крім того, ви можете збільшити розмір вхідного простору подання до більш ніж 80 (однак це може бути надмірно добре, якщо представлення вже занадто вузьке для будь-якого слова).

Хороший спосіб встановити мережу - це занадто почати з налагодження мережі, а потім зменшити ємність (приховані одиниці та вбудований простір), поки вона більше не перестане.


1
Ви спробували регуляризацію l1 та l2? Це насправді працює? Ця відповідь говорить про те, що не варто цього робити взагалі
Якуб Бартчук

Мені не було відомо про цю властивість RNN, я видалю цю точку відповіді
Мігель

Здрастуйте, мені було цікаво, як у вас з'явилося правило, в якому зазначено, що "кількість прихованих одиниць буде між кількістю вхідних одиниць і вихідних класів". Чи є папір, на яку я можу посилатися?
Конг

У цьому справа в правилах, я не знаю, звідки я це взяв ...
Мігель
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.