RNN з регуляризацією L2 припиняє навчання


10

Я використовую двонаправлений RNN для виявлення події незбалансованого виникнення. Позитивний клас у 100 разів рідше, ніж негативний. Хоча не використовую регуляризацію, я можу отримати 100% точність на наборі поїздів і 30% на комплект перевірки. Я включаю регуляризацію l2, і результат - лише 30% точність на поїзді, а не довше навчання та 100% точність на валідації.

Я думав, що, можливо, мої дані занадто малі, тому просто для експерименту я об'єднав потяг із тестовим набором, який раніше не використовував. Ситуація була такою ж, як я б використовував регуляризацію l2, чого я зараз не робив. Я отримую 30% точності на поїзді + тест і перевірку.

У використанні 128 згаданих одиниць і 80 кроків у згаданих експериментах Коли я збільшив кількість прихованих одиниць до 256, я знову можу переодягнутись на поїзд + тестовий набір, щоб отримати 100% точність, але все ще лише 30% на набір перевірки.

Я спробував так багато варіантів для гіперпараметрів і майже ніякого результату. Можливо, зважена перехресна ентропія викликає проблему, в даних експериментах вага на позитивному класі становить 5. При спробі великих ваг результати часто гірші приблизно на 20% точності.

Я спробував клітини LSTM та GRU, різниці немає.

Найкращі результати, які я отримав. Я спробував 2 приховані шари з 256 прихованими одиницями, обчислення зайняло близько 3 днів та 8 Гб пам'яті GPU. Я отримав приблизно 40-50% точності, перш ніж він знову почне налагоджувати, поки регуляризація l2 була включена, але не настільки сильна.

Я використовую оптимізатори Адама, інші працювали не так добре. У мене є достатня функція, тому що, використовуючи стан-машину, я можу отримати 90% точності. У цій машині стану головною особливістю є підсумовування та встановлення порогів на основі інших властивостей функції, а її змінна довжина іноді становить 10, іноді 20 часових позначок, що говорить про особливість.

Чи є якась загальна настанова, що робити в цій ситуації? Мені нічого не вдалося знайти.

Відповіді:


11

Стаття Бенджо та ін " Про труднощі навчання періодичних нейронних мереж " дає підказку щодо того, чому регуляризація L2 може призвести до зниження продуктивності RNN. По суті, L1 / L2, що регулює клітини RNN, також ставить під загрозу здатність клітин вивчати та зберігати інформацію через час.

Використання штрафу L1 або L2 на повторних вагах може допомогти при вибуху градієнтів. Якщо припустити , що ваги не започатковано малих значення, найбільші сингулярне значення з , ймовірно , менше , ніж 1. Термін L1 / L2 може гарантувати , що в процесі навчання перебування менше , ніж 1, і в цьому режимі градієнти не можуть вибухнути . Такий підхід обмежує модель в одноточковому аттракторі біля початку, де будь-яка інформація, вставлена ​​в модель, швидко гине в експоненціальному масштабі. Це заважає моделі вивчати генераторні мережі, а також не може виявляти довготривалі сліди пам'яті.λ1Wrecλ1

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.