Чому ReLU використовується як функція активації?

19

Функції активації використовуються для введення нелінійностей у лінійний вихід типу w * x + bв нейронній мережі.

Який я здатний зрозуміти інтуїтивно для таких функцій активації, як сигмоїд.

Я розумію переваги ReLU, яка уникає мертвих нейронів під час розмноження. Однак я не в змозі зрозуміти, чому ReLU використовується як функція активації, якщо її вихід лінійний?

Хіба вся суть функції активації не зазнає поразки, якщо вона не введе нелінійність?

— Кролик
джерело

19

$f: A \rightarrow B$ $x$ $y$ $A$ $f(x) + f(y) = f(x+y)$ $max(0,x)$ $(-\infty, 0]$ $[0, \infty)$ $f(-1) + f(1) \neq f(0)$

Тим не менш, ReLU настільки близький до лінійного, що це часто бентежить людей і цікавить, як його можна використовувати як універсальний наближувач. На мій досвід, найкращий спосіб подумати про них - це, як підсумовує Ріман. Ви можете наближати будь-які безперервні функції з великою кількістю маленьких прямокутників. Активація ReLU може створити багато маленьких прямокутників. Насправді, на практиці ReLU може робити досить складні форми та наближати багато складних областей.

Я також відчуваю, як уточнюю ще один момент. Як вказувалося в попередній відповіді, нейрони не гинуть в Сигмоїді, а швидше зникають. Причина цього полягає в тому, що максимум похідна від сигмоїдної функції дорівнює .25. Отже, після такої кількості шарів ви закінчуєте множення цих градієнтів, і добуток дуже малих чисел менше 1, як правило, дуже швидко переходить до нуля.

Отже, якщо ви будуєте мережу глибокого навчання з великою кількістю шарів, ваші сигмоподібні функції, по суті, досить швидко застоюються і стають більш-менш марними.

Ключовим фактором є те, що зникнення відбувається через множення градієнтів, а не на самі градієнти.

— Топхат
джерело

6

Я розумію переваги ReLU, яка уникає мертвих нейронів під час розмноження.

Це не зовсім вірно. Нейрони не мертві. Якщо ви використовуєте сигмоподібні активації, після деяких ітерацій значення градієнтів насичують більшість нейронів. Значення градієнта буде настільки малим, а процес навчання відбувається так повільно. Це зникаючі та вибухові градієнти, що були в сигмоподібних функціях активації. І навпаки, мертві нейрони можуть трапитися, якщо використовуватиReLU нелінійність, яку називають вмираючою ReLU .

Я не в змозі зрозуміти, чому ReLU використовується як функція активації, якщо її вихід лінійний

Однозначно це не лінійно. Як просте визначення, лінійна функція - це функція, яка має однакові похідні для входів у своїй області.

Лінійна функція популярна в економіці. Він привабливий тим, що з ним легко і легко керувати математично. Він має багато важливих застосувань. Лінійні функції - це ті, графік яких є прямою. Лінійна функція має такий вигляд:

y = f (x) = a + bx

Лінійна функція має одну незалежну змінну та одну залежну змінну. Незалежна змінна - x, а залежна змінна - y.

a - постійний член або y перехоплення. Це значення залежної змінної, коли x = 0.

b - коефіцієнт незалежної змінної. Він також відомий як нахил і дає швидкість зміни залежної змінної.

ReLUне є лінійним . Проста відповідь полягає в тому, що ReLUвихід не є прямою лінією, а згинається на осі x. Більш цікавим моментом є те, що є наслідком цієї нелінійності. Простіше кажучи, лінійні функції дозволяють розсікати площину функції за допомогою прямої лінії. Але з нелінійністюReLU s, ви можете побудувати криві довільної форми на площині функції.

ReLUможе мати недолік - очікуване значення. Немає обмежень на вихід Reluта очікуване значення не дорівнює нулю. Tanhбула більш популярною, ніж sigmoidтому, що її очікуване значення дорівнює нулю, а навчання в більш глибоких шарах відбувається швидше. Хоча ReLUнемає цієї переваги batch normalizationвирішує цю проблему .

Ви також можете посилатися тут і тут для отримання додаткової інформації.

— ЗМІ
джерело