Я розумію переваги ReLU, яка уникає мертвих нейронів під час розмноження.
Це не зовсім вірно. Нейрони не мертві. Якщо ви використовуєте сигмоподібні активації, після деяких ітерацій значення градієнтів насичують більшість нейронів. Значення градієнта буде настільки малим, а процес навчання відбувається так повільно. Це зникаючі та вибухові градієнти, що були в сигмоподібних функціях активації. І навпаки, мертві нейрони можуть трапитися, якщо використовуватиReLU
нелінійність, яку називають вмираючою ReLU .
Я не в змозі зрозуміти, чому ReLU використовується як функція активації, якщо її вихід лінійний
Однозначно це не лінійно. Як просте визначення, лінійна функція - це функція, яка має однакові похідні для входів у своїй області.
Лінійна функція популярна в економіці. Він привабливий тим, що з ним легко і легко керувати математично. Він має багато важливих застосувань. Лінійні функції - це ті, графік яких є прямою. Лінійна функція має такий вигляд:
y = f (x) = a + bx
Лінійна функція має одну незалежну змінну та одну залежну змінну. Незалежна змінна - x, а залежна змінна - y.
a - постійний член або y перехоплення. Це значення залежної змінної, коли x = 0.
b - коефіцієнт незалежної змінної. Він також відомий як нахил і дає швидкість зміни залежної змінної.
ReLU
не є лінійним . Проста відповідь полягає в тому, що ReLU
вихід не є прямою лінією, а згинається на осі x. Більш цікавим моментом є те, що є наслідком цієї нелінійності. Простіше кажучи, лінійні функції дозволяють розсікати площину функції за допомогою прямої лінії. Але з нелінійністюReLU
s, ви можете побудувати криві довільної форми на площині функції.
ReLU
може мати недолік - очікуване значення. Немає обмежень на вихід Relu
та очікуване значення не дорівнює нулю. Tanh
була більш популярною, ніж sigmoid
тому, що її очікуване значення дорівнює нулю, а навчання в більш глибоких шарах відбувається швидше. Хоча ReLU
немає цієї переваги batch normalization
вирішує цю проблему .
Ви також можете посилатися тут і тут для отримання додаткової інформації.