Чому ReLU кращий за інші функції активації


17

Тут відповідь стосується зникаючих та вибухових градієнтів, які були у sigmoidподібних функціях активації, але, я думаю, Reluмає недолік, і це його очікуване значення. немає обмежень на вихід Reluта, тому його очікуване значення не дорівнює нулю. Я пам'ятаю час , перш ніж популярність , Reluщо tanhбув найпопулярнішим серед машинного навчання фахівців , а не sigmoid. Причиною було те, що очікуване значення рівня tanhдорівнювало нулю, і це допомагало навчанню в більш глибоких шарах бути більш швидким в нейронній мережі. Reluця характеристика не має, але чому вона працює так добре, якщо відкласти її похідну перевагу. Більше того, я думаю, похідна також може вплинути. Тому що активації (вихідRelu) залучаються до обчислення правил оновлення.


Звичайною є певна нормалізація (наприклад, пакетна нормалізація, нормалізація шару) разом з ReLU. Це регулює вихідний діапазон.
ncasas

@ncasas Але типова CNNнормалізація виходу з reluне звичайна? Принаймні, я ніколи цього не бачив.
Медіа

Ви маєте рацію, у не дуже глибоких CNN нормально не мати пакетної нормалізації. Ви розглядали роль початкових значень ваги? (наприклад, Він ініціалізація)
ncasas

так, насправді вони є тим, що якимось чином запобігають зникненню / вибуху градієнтів, після деяких ітерацій висновки збільшуються, я думаю.
Медіа

Відповіді:


21

Найбільша перевага ReLu - це справді ненасичення його градієнта, що значно прискорює конвергенцію стохастичного градієнтного спуску порівняно з сигмоподібними / танг-функціями ( праця Кріжевського та ін.).

Але це не єдина перевага. Ось обговорення ефектів обмеженості активації ReLu та індукованої регуляризації. Ще одна приємна властивість полягає в тому, що порівняно з танг / сигмоїдними нейронами, які передбачають дорогі операції (експоненціали тощо), ReLU можна реалізувати, просто порігши матрицю активацій у нуль.

Але я не впевнений , що великий успіх сучасних нейронних мереж обумовлена РЕЛУ тільки . Нові методи ініціалізації, такі як ініціалізація Xavier, випадання та (пізніша) batchnorm, також відіграли дуже важливу роль. Наприклад, відомий AlexNet використовував ReLu та випадання.

Отже, щоб відповісти на ваше запитання: ReLu має дуже приємні властивості, хоча і не ідеальні . Але це справді доводить себе в поєднанні з іншими чудовими прийомами, які, до речі, вирішують проблему, що не має нульового центру, про яку ви згадали.

UPD: Вихід ReLu дійсно не орієнтований на нуль, і це шкодить продуктивності NN. Але цю проблему можна вирішити іншими методами регуляризації, наприклад, batchnorm, який нормалізує сигнал перед активацією :

Перетворення BN додаємо безпосередньо перед нелінійністю, нормалізуючи . ... нормалізуючи, ймовірно, виробляються активації зі стабільним розподілом.х=Wу+б


1
Я мав би наголосити на цій частині: я намагався сказати, що ReLu не вирішує це питання. Ви маєте рацію, що вихід ReLu не орієнтований на нуль, і це шкодить продуктивності NN, якщо тільки ваги не регулюються. Але насичені градієнти ще більше зашкоджують NN, тому масове прийняття ReLu було кроком вперед, незважаючи на його недоліки.
Максим

Скажіть, будь ласка, що ви маєте на увазі під вагами, які регулюються? у відповідь, а також те, що ви наголосили.
Медіа

Я оновив свою відповідь деякими подробицями щодо цього конкретного питання
Максим

Що я вважаю трохи заплутаним, чому б не просто використовувати функцію ідентичності? Яка перевага 0 для значень нега?
Алекс

@Alex id не є нелінійним. Це еквівалентно наявності лише лінійних шарів в NN. Дивіться це запитання - stackoverflow.com/q/46659525/712995
Максим
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.