Вибір прихованої функції активації нейронної мережі


14

Я читав в інших місцях, що вибір функції активації прихованого шару в NN повинен базуватися на потребі , тобто якщо вам потрібні значення в діапазоні від -1 до 1, використовуйте tanh і використовуйте сигмоїд для діапазону від 0 до 1.

Моє запитання - як можна знати, у чому полягає потреба ? Це засновано на діапазоні вхідного шару, наприклад, використовувати функцію, яка може охоплювати повний діапазон значень вхідного шару, або якимось чином відображає розподіл вхідного шару (функція Гаусса)? Або проблема чи потреба / домен конкретна, і для того, щоб зробити вибір, потрібен досвід / судження? Або просто "використовувати те, що дає найкращу перекреслену мінімальну помилку тренувань?"


3
Цей аргумент є bs, тому що (tanh + 1) / 2 також знаходиться в 0-1, не кажучи вже про те, що "сигмоїд" є таким невиразним терміном, що він досить часто охоплює tanh.

Напевно, варто згадати, що будь-який набір даних може бути нормалізований до 0-> 1 і змушений використовувати активацію сигмоїдів 1 + (1 / exp(-sum)). Зробити необхідність дуже складною для розуміння, не намагаючись обидва набір даних. Потрібно , як ви описали його тут прив'язаний до фактичного відношенню будучи дізнався, тобто довічного набір даних буде вчитися швидше або не на всі задані різні активації.
Адріан Зелі

Відповіді:


12

LeCun обговорює це в розділі " Ефективний фон" . Мотивація аналогічна мотивації для нормалізації середнього значення введення до нуля (Розділ 4.3). Середні виходи функції активації тану, швидше за все, будуть близькими до нуля, ніж сигмоїди, середній вихід яких повинен бути позитивним.


Дуже інформативне прочитання!
babelproofreader

6

Необхідність, згадана в першому параграфі питання, стосується функції активації вихідного рівня, а не функції активації прихованого шару. Мати виходи в межах від 0 до 1 зручно, оскільки це означає, що вони можуть безпосередньо представляти ймовірності. Однак IIRC, мережа з функціями активації вихідного шару, може бути тривіально перетворена в мережу з функцією активації логістичного рівня виходу, тому на практиці це не має великого значення.

Причина використання IIRC у використанні tanh, а не логістичної функції активації в прихованих одиницях, тобто те, що зміна, яка здійснюється на вагу за допомогою зворотного розповсюдження, залежить як від виходу нейрона прихованого шару, так і від похідної функції активації, тому використовуючи логістичну активацію Функція може одночасно перейти до нуля, що може призвести до того, що блок прихованого шару застигне.

Коротше кажучи, використовуйте tanh для функцій активації прихованого шару, вибрали функцію активації вихідного шару, щоб забезпечити необхідні обмеження на виході (звичайні варіанти: лінійний - без обмежень, логістичний - вихід лежить між 0 і 1 і експоненційний - вихід суворо позитивний).


Я не розумію "... обоє мають нуль ...". Я бачу, що вихід може бути нульовим, але як це можливо, щоб похідна логістичної функції перейшла до нуля, як ні.
ерогол

вона не йде точно до нуля, для логістичної функції вона просто стає дуже маленькою. Для функції tanh похідна є найвищою, коли вихід дорівнює нулю, а вихід на найбільшому, коли похідна є найменшою. Оригінальний папір був написаний наприкінці 80-х, я побачу, чи можу я запам'ятати деталі.
Дікран Марсупіал

2
Я не можу знайти оригінальний папір, але деякі статті в книзі "Нейронні мережі - хитрощі торгівлі" говорять про те, що тан краще в прихованих шарах, оскільки мережі працюють краще, якщо активації прихованого шару центрируються (тобто нульове значення ).
Дікран Марсупіал

2

1.7159×tanh(x×(2/3))1+1[1.5,+1.5]

Загальна концепція вибору сигмоїди для вашої мети полягає у виборі відповідної правила, вихідні значення знаходяться в діапазоні точок, максимум другої похідної сигмоїдної функції є максимальним.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.