Які переваги використання ReLU над softplus як функції активації?


21

Часто згадується, що випрямлені лінійні одиниці (ReLU) витіснили одиниці softplus, оскільки вони лінійні та швидші для обчислення.

Чи є у softplus все-таки перевага, що викликає розрідженість, або це обмежено для ReLU?

Причина, яку я запитую, це те, що я цікавлюсь негативними наслідками нульового схилу ReLU. Хіба ця властивість не «захоплює» одиниці на нулі, де може бути корисно надати їм можливість реактивації?


ви коли-небудь дізналися відповідь на це?
Чарлі Паркер

Відповіді:


4

Я знайшов відповідь на ваше запитання у Розділі 6.3.3 книги « Поглиблене навчання» . (Goodfellow та ін., 2016):

Застосування softplus взагалі не рекомендується. ... можна очікувати, що це матиме перевагу перед випрямлячем через те, що він є диференційованим скрізь або через менш насичене насичення, але емпірично це не робить.

В якості посилання на підтвердження цього твердження вони наводять статтю Deep Sparse Rectifier Neural Networks (Glorot et al., 2011).


1
Я думаю, нам потрібно більше роз’яснень щодо «але емпірично це не так».
nbro

2

Резюме дійсно можна постійно вимкнути, особливо за високих показників навчання. Це мотивація, що лежить внаслідок протікання ReLU та активації ELU, які мають скрізь ненульовий градієнт.

Leaky ReLU - це кусково-лінійна функція, подібно до ReLU, настільки швидка для обчислення. ELU має перевагу перед softmax та ReLU в тому, що його середній вихід ближче до нуля, що покращує навчання.


Що означає "майже скрізь"?
nbro

1
"майже скрізь" - це технічний термін, який означає щось на кшталт "за винятком кількох нескінченно малих точок". Наприклад, герметичний ReLU не має градієнта, визначеного при x = 0.
Х'ю Перкінс
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.