Які переваги використання ReLU над softplus як функції активації?

21

Часто згадується, що випрямлені лінійні одиниці (ReLU) витіснили одиниці softplus, оскільки вони лінійні та швидші для обчислення.

Чи є у softplus все-таки перевага, що викликає розрідженість, або це обмежено для ReLU?

Причина, яку я запитую, це те, що я цікавлюсь негативними наслідками нульового схилу ReLU. Хіба ця властивість не «захоплює» одиниці на нулі, де може бути корисно надати їм можливість реактивації?

machine-learning neural-networks

— brockl33
джерело

ви коли-небудь дізналися відповідь на це?

— Чарлі Паркер

4

Я знайшов відповідь на ваше запитання у Розділі 6.3.3 книги « Поглиблене навчання» . (Goodfellow та ін., 2016):

Застосування softplus взагалі не рекомендується. ... можна очікувати, що це матиме перевагу перед випрямлячем через те, що він є диференційованим скрізь або через менш насичене насичення, але емпірично це не робить.

В якості посилання на підтвердження цього твердження вони наводять статтю Deep Sparse Rectifier Neural Networks (Glorot et al., 2011).

— Олександр Щур
джерело

1

Я думаю, нам потрібно більше роз’яснень щодо «але емпірично це не так».

— nbro

2

Резюме дійсно можна постійно вимкнути, особливо за високих показників навчання. Це мотивація, що лежить внаслідок протікання ReLU та активації ELU, які мають скрізь ненульовий градієнт.

Leaky ReLU - це кусково-лінійна функція, подібно до ReLU, настільки швидка для обчислення. ELU має перевагу перед softmax та ReLU в тому, що його середній вихід ближче до нуля, що покращує навчання.

— Х'ю Перкінс
джерело

Що означає "майже скрізь"?

— nbro

1

"майже скрізь" - це технічний термін, який означає щось на кшталт "за винятком кількох нескінченно малих точок". Наприклад, герметичний ReLU не має градієнта, визначеного при x = 0.

— Х'ю Перкінс