Я розумію переваги ReLU, яка уникає мертвих нейронів під час розмноження.
Це не зовсім вірно. Нейрони не мертві. Якщо ви використовуєте сигмоподібні активації, після деяких ітерацій значення градієнтів насичують більшість нейронів. Значення градієнта буде настільки малим, а процес навчання відбувається так повільно. Це зникаючі та вибухові градієнти, що були в сигмоподібних функціях активації. І навпаки, мертві нейрони можуть трапитися, якщо використовуватиReLU нелінійність, яку називають вмираючою ReLU .
Я не в змозі зрозуміти, чому ReLU використовується як функція активації, якщо її вихід лінійний
Однозначно це не лінійно. Як просте визначення, лінійна функція - це функція, яка має однакові похідні для входів у своїй області.
Лінійна функція популярна в економіці. Він привабливий тим, що з ним легко і легко керувати математично. Він має багато важливих застосувань. Лінійні функції - це ті, графік яких є прямою. Лінійна функція має такий вигляд:
y = f (x) = a + bx
Лінійна функція має одну незалежну змінну та одну залежну змінну. Незалежна змінна - x, а залежна змінна - y.
a - постійний член або y перехоплення. Це значення залежної змінної, коли x = 0.
b - коефіцієнт незалежної змінної. Він також відомий як нахил і дає швидкість зміни залежної змінної.
ReLUне є лінійним . Проста відповідь полягає в тому, що ReLUвихід не є прямою лінією, а згинається на осі x. Більш цікавим моментом є те, що є наслідком цієї нелінійності. Простіше кажучи, лінійні функції дозволяють розсікати площину функції за допомогою прямої лінії. Але з нелінійністюReLU s, ви можете побудувати криві довільної форми на площині функції.
ReLUможе мати недолік - очікуване значення. Немає обмежень на вихід Reluта очікуване значення не дорівнює нулю. Tanhбула більш популярною, ніж sigmoidтому, що її очікуване значення дорівнює нулю, а навчання в більш глибоких шарах відбувається швидше. Хоча ReLUнемає цієї переваги batch normalizationвирішує цю проблему .
Ви також можете посилатися тут і тут для отримання додаткової інформації.