Я використовую двонаправлений RNN для виявлення події незбалансованого виникнення. Позитивний клас у 100 разів рідше, ніж негативний. Хоча не використовую регуляризацію, я можу отримати 100% точність на наборі поїздів і 30% на комплект перевірки. Я включаю регуляризацію l2, і результат - лише 30% точність на поїзді, а не довше навчання та 100% точність на валідації.
Я думав, що, можливо, мої дані занадто малі, тому просто для експерименту я об'єднав потяг із тестовим набором, який раніше не використовував. Ситуація була такою ж, як я б використовував регуляризацію l2, чого я зараз не робив. Я отримую 30% точності на поїзді + тест і перевірку.
У використанні 128 згаданих одиниць і 80 кроків у згаданих експериментах Коли я збільшив кількість прихованих одиниць до 256, я знову можу переодягнутись на поїзд + тестовий набір, щоб отримати 100% точність, але все ще лише 30% на набір перевірки.
Я спробував так багато варіантів для гіперпараметрів і майже ніякого результату. Можливо, зважена перехресна ентропія викликає проблему, в даних експериментах вага на позитивному класі становить 5. При спробі великих ваг результати часто гірші приблизно на 20% точності.
Я спробував клітини LSTM та GRU, різниці немає.
Найкращі результати, які я отримав. Я спробував 2 приховані шари з 256 прихованими одиницями, обчислення зайняло близько 3 днів та 8 Гб пам'яті GPU. Я отримав приблизно 40-50% точності, перш ніж він знову почне налагоджувати, поки регуляризація l2 була включена, але не настільки сильна.
Я використовую оптимізатори Адама, інші працювали не так добре. У мене є достатня функція, тому що, використовуючи стан-машину, я можу отримати 90% точності. У цій машині стану головною особливістю є підсумовування та встановлення порогів на основі інших властивостей функції, а її змінна довжина іноді становить 10, іноді 20 часових позначок, що говорить про особливість.
Чи є якась загальна настанова, що робити в цій ситуації? Мені нічого не вдалося знайти.