Чому ReLU кращий за інші функції активації

Тут відповідь стосується зникаючих та вибухових градієнтів, які були у sigmoidподібних функціях активації, але, я думаю, Reluмає недолік, і це його очікуване значення. немає обмежень на вихід Reluта, тому його очікуване значення не дорівнює нулю. Я пам'ятаю час , перш ніж популярність , Reluщо tanhбув найпопулярнішим серед машинного навчання фахівців , а не sigmoid. Причиною було те, що очікуване значення рівня tanhдорівнювало нулю, і це допомагало навчанню в більш глибоких шарах бути більш швидким в нейронній мережі. Reluця характеристика не має, але чому вона працює так добре, якщо відкласти її похідну перевагу. Більше того, я думаю, похідна також може вплинути. Тому що активації (вихідRelu) залучаються до обчислення правил оновлення.

— ЗМІ
джерело

Звичайною є певна нормалізація (наприклад, пакетна нормалізація, нормалізація шару) разом з ReLU. Це регулює вихідний діапазон.

— ncasas

@ncasas Але типова CNNнормалізація виходу з reluне звичайна? Принаймні, я ніколи цього не бачив.

— Медіа

Ви маєте рацію, у не дуже глибоких CNN нормально не мати пакетної нормалізації. Ви розглядали роль початкових значень ваги? (наприклад, Він ініціалізація)

— ncasas

так, насправді вони є тим, що якимось чином запобігають зникненню / вибуху градієнтів, після деяких ітерацій висновки збільшуються, я думаю.

— Медіа

Найбільша перевага ReLu - це справді ненасичення його градієнта, що значно прискорює конвергенцію стохастичного градієнтного спуску порівняно з сигмоподібними / танг-функціями ( праця Кріжевського та ін.).

Але це не єдина перевага. Ось обговорення ефектів обмеженості активації ReLu та індукованої регуляризації. Ще одна приємна властивість полягає в тому, що порівняно з танг / сигмоїдними нейронами, які передбачають дорогі операції (експоненціали тощо), ReLU можна реалізувати, просто порігши матрицю активацій у нуль.

Але я не впевнений , що великий успіх сучасних нейронних мереж обумовлена РЕЛУ тільки . Нові методи ініціалізації, такі як ініціалізація Xavier, випадання та (пізніша) batchnorm, також відіграли дуже важливу роль. Наприклад, відомий AlexNet використовував ReLu та випадання.

Отже, щоб відповісти на ваше запитання: ReLu має дуже приємні властивості, хоча і не ідеальні . Але це справді доводить себе в поєднанні з іншими чудовими прийомами, які, до речі, вирішують проблему, що не має нульового центру, про яку ви згадали.

UPD: Вихід ReLu дійсно не орієнтований на нуль, і це шкодить продуктивності NN. Але цю проблему можна вирішити іншими методами регуляризації, наприклад, batchnorm, який нормалізує сигнал перед активацією :

Перетворення BN додаємо безпосередньо перед нелінійністю, нормалізуючи . ... нормалізуючи, ймовірно, виробляються активації зі стабільним розподілом. $x = Wu+ b$

— Максим
джерело

Я мав би наголосити на цій частині: я намагався сказати, що ReLu не вирішує це питання. Ви маєте рацію, що вихід ReLu не орієнтований на нуль, і це шкодить продуктивності NN, якщо тільки ваги не регулюються. Але насичені градієнти ще більше зашкоджують NN, тому масове прийняття ReLu було кроком вперед, незважаючи на його недоліки.

— Максим

Скажіть, будь ласка, що ви маєте на увазі під вагами, які регулюються? у відповідь, а також те, що ви наголосили.

— Медіа

Я оновив свою відповідь деякими подробицями щодо цього конкретного питання

— Максим

Що я вважаю трохи заплутаним, чому б не просто використовувати функцію ідентичності? Яка перевага 0 для значень нега?

— Алекс

@Alex id не є нелінійним. Це еквівалентно наявності лише лінійних шарів в NN. Дивіться це запитання - stackoverflow.com/q/46659525/712995

— Максим