Чому виправлені лінійні одиниці вважаються нелінійними?


25

Чому функції активації випрямлених лінійних одиниць (ReLU) вважаються нелінійними?

f(x)=max(0,x)

Вони лінійні, коли вхід позитивний, і з мого розуміння, щоб розблокувати репрезентативну потужність глибоких мереж, нелінійні активації є обов'язковими, інакше вся мережа може бути представлена ​​одним шаром.


Перед нами було подібне запитання: stats.stackexchange.com/questions/275358/…, хоча це, мабуть, не дублікат
Aksakal

Відповіді:


33

RELU - це нелінійності. Щоб допомогти вашій інтуїції, розгляньте дуже просту мережу з 1 вхідним блоком x , 2 прихованими одиницями yi та 1 вихідним блоком z . За допомогою цієї простої мережі ми могли б реалізувати функцію абсолютного значення,

z=max(0,x)+max(0,x),

або щось подібне до часто використовуваної сигмоїдної функції,

z=max(0,x+1)max(0,x1).

Комбінуючи їх у більші мережі / використовуючи більш приховані одиниці, ми можемо наблизити довільні функції.

Функція мережі RELU


Чи будуть ці типи ручно сконструйованого ReLus побудовані apriori та жорстко закодовані у вигляді шарів? Якщо так, то як би ви знали, що вашій мережі потрібен саме один із цих спеціально побудованих ReLus?
Моніка Хеднек

4
@MonicaHeddneck Ви можете вказати власні нелінійності, так. Те, що робить одну функцію активації кращою за іншу, є постійною темою дослідження. Наприклад, ми використовували сигмоїди , але потім через проблему зниклого градієнта ReLU стали більш популярними. Тож вирішувати використовувати різні функції нелінійної активації. σ(x)=11+ex
Тарін Зіяее

Як би ви наблизили з ReLU поза вибіркою? ex
Аксакал

1
@Lucas, Отже, якщо об'єднати (+)> 1 ReLU, ми можемо наблизити будь-яку функцію, але якщо ми просто, reLu(reLu(....))вона завжди буде лінійною? Крім того, тут ви переходите xдо того x+1, що можна подумати про те, Z=Wx+bде зміни W&B змінюються, щоб надати різні варіанти такого роду x& x+1?
ану
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.