Relu має 0 градієнт за визначенням, то чому градієнт зникає не є проблемою для x <0?


10

За визначенням, Relu - це max(0,f(x)). Потім її градієнт визначається як: 1 if x > 0 and 0 if x < 0.

Чи не означає це, що градієнт завжди 0 (зникає), коли х <0? Тоді чому ми говоримо, що Relu не страждає від проблеми градієнта?

Відповіді:


5

Ви здебільшого правильні! У ReLU виникає проблема з градієнтом, що зникає, але лише з одного боку, тому ми називаємо це ще чимось: «вмираючою проблемою ReLU». Додаткову інформацію див. У цій відповіді щодо переповнення стека. Що таке проблема "вмираючої ReLU" у нейронних мережах?

Це невелика смислова різниця. Багато функцій (tanh та logistic / sigmoid) мають похідні дуже близькі до нуля, коли ви знаходитесь поза стандартним робочим діапазоном. Це питання "зникаючого градієнта". Чим гірше ви станете, тим важче повернутися в хорошу зону. ReLU не погіршується, чим далі ви знаходитесь в позитивному напрямку, тому не виникає проблем з градієнтом (на цій стороні). Цієї асиметрії може бути достатньо, щоб виправдати називати це чимось іншим, але ідеї досить схожі.


2
Варто додати: Проблема градієнта, що зникає, як правило, стосується прогресивних змін на глибині мережі, а не безпосередньо щодо властивостей функцій передачі нейронів.
Ніл Слейтер

1

Зникнення означає, що вона йде в бік 0, але насправді ніколи не буде 0. Якщо градієнти 0 становлять дуже прості обчислення, градієнти, близькі до 0, означає, що є зміни, просто дуже крихітні, що означають повільне навчання та числові проблеми. 1 і 0 - це два найпростіших числа для обчислення в таких проблемах оптимізації.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.