Які переваги ReLU проти Leaky ReLU та Parametric ReLU (якщо такі є)?

Я думаю, що перевага використання Leaky ReLU замість ReLU полягає в тому, що таким чином ми не можемо мати градієнт, що зникає. Параметрична ReLU має ту саму перевагу, з тією лише різницею, що нахил виходу для негативних входів є навчальним параметром, тоді як у Leaky ReLU - це гіперпараметр.

Однак я не можу сказати, чи є випадки, коли зручніше використовувати ReLU замість Leaky ReLU або Parametric ReLU.

neural-networks activation-function relu

— гвграмазіо
джерело

Поєднання ReLU, гіпер-параметризований ¹ витікаючий варіант та варіант з динамічною параметризацією під час навчання плутають дві чіткі речі:

Порівняння між ReLU та протікаючим варіантом тісно пов'язане з тим, чи є потреба, у конкретному випадку ML, уникнути насичення. Насичення - це втрата сигналу до нульового градієнта ² або домінування хаотичного шуму, що виникає внаслідок цифрового округлення ³ .
Порівняння між тренувально-динамічною активацією ( в літературі називається параметричною ) та тренувально-статичною активацією повинно базуватися на тому, чи мають нелінійні чи негладкі характеристики активації значення, пов'язане зі швидкістю конвергенції ⁴ .

Причина, по якій ReLU ніколи не є параметричною, полягає в тому, що зробити так, було б зайвим. У негативній області це постійний нуль. У негативній області його похідна є постійною. Оскільки вхідний вектор активації вже ослаблений за допомогою продукту вектор-матриця (де матриця, куб або гіпер-куб містить параметри ослаблення), немає корисної мети в додаванні параметра для зміни постійної похідної для негативного домену .

Коли в активації є кривизна, то вже не вірно, що всі коефіцієнти активації є надмірними як параметри. Їх значення можуть значно змінити тренувальний процес, а отже, швидкість і надійність конвергенції.

Для суттєво глибоких мереж надмірність нагадує, і це є доказом цього, як в теорії, так і в практичній літературі.

В алгебраїчному плані невідповідність між ReLU та параметрично динамічними активаціями, отриманими з нього, наближається до нуля, оскільки глибина (у кількості шарів) наближається до нескінченності.
Описово кажучи, ReLU може точно наближати функції із кривизною ^5, якщо для цього достатня кількість шарів.

Ось чому сорт ELU, який є вигідним для запобігання проблем насичення, згаданих вище для дрібних мереж, не використовується для більш глибоких.

Тож треба вирішити дві речі.

Чи корисна параметрична активація, часто базується на експерименті з декількома вибірками зі статистичної сукупності. Але зовсім не потрібно експериментувати з цим, якщо глибина шару велика.
Чи має значення герметичний варіант, має багато спільного з числовими діапазонами, що виникають під час поширення спини. Якщо градієнт стає зникаючим малим під час розмноження спини в будь-якій точці під час тренування, постійна частина кривої активації може бути проблематичною. У такому масштабі одна з плавних функцій або протікання RelU з двома ненульовими схилами може запропонувати адекватне рішення.

Підсумовуючи це, вибір ніколи не є вибором зручності.

Виноски

[1] Гіперпараметри - це параметри, які впливають на сигналізацію через шар, що не є частиною загасання входів для цього шару. Ваги загасання - це параметри. Будь-яка інша параметризація знаходиться в наборі гіперпараметрів. Це може включати швидкість навчання, зменшення високих частот у зворотному розповсюдженні та широкий спектр інших елементів управління, які встановлюються для всього шару, якщо не для всієї мережі.

[2] Якщо градієнт дорівнює нулю, то не може бути інтелектуального регулювання параметрів, оскільки напрямок регулювання невідомий, а його величина повинна дорівнювати нулю. Навчання припиняється.

[3] Якщо хаотичний шум, який може виникати, коли ЦП округляє надзвичайно малі значення до їх найближчого цифрового зображення, домінує над корекційним сигналом, який призначений для поширення назад до шарів, то корекція стає нісенітницею, і навчання припиняється.

[4] Швидкість конвергенції - це міра швидкості (або відносно мікросекунд, або відносно індексу ітерації алгоритму), в якій результат навчання (поведінка системи) наближається до того, що вважається досить хорошим. Зазвичай це певна близькість до якихось формальних критеріїв прийняття конвергенції (навчання).

[5] Функції із кривизною - це ті, які не візуалізуються як прямі чи плоскі. Парабола має викривлення. Пряма лінія не робить. Поверхня яйця має викривлення. Ідеальна плоска площина не робить. Математично, якщо будь-який з елементів гессіанської функції не дорівнює нулю, функція має кривизну.

— Фохристиян
джерело

Що ви маєте на увазі під вибором - це ніколи не вибір зручності ?

— gvgramazio

@gvgramazio, у вашому запитанні ви написали "зручніше використовувати ReLU". Я вказував, що зручність не є основою, на якій робиться вибір. Можливо, це виходить занадто суворим? Я не збирався бути. Речення вище цього речення у моїй відповіді мали на меті забезпечити більш корисні критерії, на яких ви можете базувати своє рішення, вибираючи функції активації.

— Fauhhristian

Не хвилюйтеся, що ви занадто суворі, для мене це зовсім не проблема. Я думаю, що це більше проблема мови (я не є носієм англійської мови).

— gvgramazio

Справа в тому, що, з того, що я зрозумів, ви добре пояснюєте, в якому випадку я повинен віддати перевагу одному варіанту щодо інших. Я все ще не розумію, коли мені слід віддати перевагу класичному. наприклад, протікаючий варіант може запропонувати адекватне рішення зникаючого градієнта, але якщо він не має жодного недоліку, я завжди міг вибрати варіант, що протікає відносно ReLU.

— gvgramazio

@FauChristian Ви можете, будь ласка, додати ще розмовні терміни та інтуїцію, я не так знайомий з математичною мовою :)

— DuttaA