Як перевірити наявність мертвих нейронів релу


10

Передумови: Під час встановлення нейронних мереж з активацією relu я виявив, що іноді прогноз стає майже постійним. Я вважаю, що це пов’язано з нейронами relu, що гинуть під час тренувань, про що йдеться тут. ( Яка проблема "вмираючої ReLU" в нейронних мережах? )

Питання: Що я сподіваюся зробити, це здійснити перевірку в самому коді, щоб перевірити, чи нейрони мертві. Після цього код за потреби міг переправити мережу.

Що таке хороша цитарія, щоб перевірити наявність мертвих нейронів? В даний час я замислююся про те, щоб перевірити наявність низької дисперсії в прогнозі як цитата.

Якщо це допомагає, я використовую кери.


Додайте резюме для перекосів у tensorboard: tensorflow.org/get_started/summaries_and_tensorboard
Emre

Відповіді:


6

Мертвий ReLU в значній мірі просто означає, що значення його аргументу є негативним таким, що градієнт залишається на рівні 0; незалежно від того, як ви навчаєтесь з цього моменту. Ви можете просто подивитися на градієнт під час тренування, щоб побачити, чи ReLU мертвий чи ні.

На практиці ви можете просто використовувати непрохідні ReLU, тобто замість f (x) = max (0, x) ви встановлюєте f (x) = x, якщо x> 0 і f (x) = 0.01x, якщо x <= 0 Таким чином, ви завжди допускаєте невеликий ненульовий градієнт, і пристрій більше не повинен зациклюватися на тренуванні.


1

Мертвий нейрон - це нейрон, який не оновлюється під час тренування, тобто. 0 градієнт.

Керас дозволяє витягнути градієнт безпосередньо для заданого рядка даних. (Ще один приємний приклад)

Або ви можете витягнути ваги нейронів і обчислити градієнт самостійно
(наприклад, для relu, негативний аргумент для relu -> 0 градієнт.)

На жаль, градієнт є специфічним для точки даних. Тільки якщо градієнт дорівнює 0 для кожного ряду даних тренувань, ви можете бути впевнені, що нейрон не оновлюватиметься для всіх міні-матчів під час тренувальної епохи.

Leaky relu може бути корисною стратегією, оскільки немає значення для герметичного relu, де градієнт дорівнює 0.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.