Чому ми використовуємо ReLU в нейронних мережах і як ми їх використовуємо?


31

Чому ми використовуємо випрямлені лінійні одиниці (ReLU) з нейронними мережами? Як це покращує нейронну мережу?

Чому ми говоримо, що ReLU - це функція активації? Чи не функція активації softmax для нейронних мереж? Я здогадуюсь, що ми використовуємо обидва, ReLU та softmax, як це:

нейрон 1 з виведенням softmax ----> ReLU на виході нейрона 1, який є
входом нейрона 2 ---> нейрон 2 з виходом softmax -> ...

так що вхід нейрона 2 є в основному ReLU (softmax (x1)). Це правильно?

Відповіді:


36

f(х)=макс(0,х).

Одним із способів покращення нейромереж ReLU є прискорення навчання. Обчислення градієнта дуже просте (або 0, або 1, залежно від знака ). Крім того, крок обчислення для ReLU простий: будь-які негативні елементи встановлюються на 0,0 - немає експоненцій, ніяких операцій множення чи ділення.х

Градієнти логістичних та гіперболічних дотичних мереж менші за позитивну частину ReLU. Це означає, що позитивна частина оновлюється швидше в міру прогресування навчання. Однак це приходить дорожче. Градієнт 0 в лівій частині має свою проблему, яку називають "мертвими нейронами", в якій оновлення градієнта встановлює вхідні значення в ReLU таким чином, що вихід завжди дорівнює нулю; модифіковані блоки ReLU, такі як ELU (або Leaky ReLU, або PReLU тощо), можуть покращити це.

ггхReLU(х)=1х>0 . Навпаки, градієнт сигмоподібної одиниці становить не більше ; з іншого боку, для вхідних даних у регіоні близько 0, оскільки (приблизно).0,25тан0,25<ггхтан(х)1х[-1,31,1,31]


@aginensky Ви можете задати питання, натиснувши кнопку "Задати питання" вгорі сторінки.
Sycorax повідомила, що повернеться Моніка

Я не бачу доказів того, що я хотів задати питання або що я брав участь у цій сторінці. Відверто кажучи, я вражений тим, наскільки добре працює ReLU, але я перестав його питати :).
агіненський

@aginensky Здається, що коментар було видалено тимчасово.
Sycorax повідомляє про відновлення Моніки

Коментар не був видалений мною, ні мене не повідомили. Я перестав відповідати на запитання, і, мабуть, це означає, що я теж закінчую з коментарями.
агіненський

@aginensky Я не знаю, чому це змусить вас перестати коментувати. Якщо у вас виникнуть запитання щодо коментарів та модерації, ви можете задати питання в meta.stats.SE.
Sycorax повідомляє про відновлення Моніки

4

ρ(х)=макс(0,х)ρρρρ=ρ

введіть тут опис зображення

н


0

ReLU - максимальна функція (x, 0) з введенням x, наприклад, матрицею із згорнутого зображення. Потім ReLU встановлює всі негативні значення в матриці x до нуля, а всі інші значення зберігаються постійними.

ReLU обчислюється після згортки і, отже, нелінійна функція активації, як танг або сигмоїд.

Softmax - класифікатор в кінці нейронної мережі. Це логістична регресія для регуляризації результатів до значень від 0 до 1. (Альтернативою тут є класифікатор SVM).

CNN Forward Pass, наприклад: input-> conv-> ReLU-> Pool-> conv-> ReLU-> Pool-> FC-> softmax


8
Нахил Це дуже погана відповідь! Softmax не є класифікатором! Це функція, яка нормалізує (масштабує) виходи до діапазону [0,1] та забезпечує їх підведення до 1. Логістична регресія нічого не «регулює»! Речення "ReLU обчислюється після згортки і, отже, нелінійна функція активації, як танг або сигмоїд". не вистачає дієслова чи сенсу.
Ян Кукацька

1
Відповідь не така вже й погана. Речення без дієслова повинно бути "ReLU обчислюється після згортання, і тому IS нелінійна функція активації, як tanh або sigmoid." Думати про softmax як класифікатор теж має сенс. Його можна розглядати як імовірнісний класифікатор, який присвоює ймовірність кожному класу. Він "регулює" / "нормалізує" виходи на інтервал [0,1].
користувач118967

0

ReLU - це буквальний перемикач. За допомогою електричного вимикача 1 вольт вмикає 1 вольт, а n вольт дає n вольт при включенні. Увімкнення / вимкнення, коли ви вирішили переключитися на нуль, дає точно такий же графік, як і ReLU. Зважена сума (крапковий добуток) ряду зважених сум все ще є лінійною системою. Для конкретного входу вимикачі ReLU включаються або вимикаються окремо. Це призводить до конкретної лінійної проекції від входу до виходу, оскільки різні зважені суми зваженої суми ... з'єднуються між собою перемикачами. Для конкретного введення та конкретного вихідного нейрона існує складна система зважених сум, яку насправді можна звести до єдиної ефективної зваженої суми. Оскільки стан перемикачів ReLU дорівнює нулю, не виникає раптових розривів у виході для поступових змін вхідних даних.

Існують інші алгоритми чисельно зваженої суми (крапкового продукту), такі як перетворення FFT та Уолша Хадамарда. Немає ніяких причин ви не можете їх включити в нейронну мережу, засновану на ReLU, та скористатися обчислювальною вигодою. (наприклад, виправлена ​​нейромережа банку фільтрів.)

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.