Що відбувається, коли я змішу функції активації?


10

Існує кілька функцій активації, таких як ReLU, сигмоїдний або тан. Що відбувається, коли я змішу функції активації?

Нещодавно я виявив, що Google розробив функцію активації Swish, яка є (x * sigmoid). Змінивши функцію активації, чи може вона підвищити точність для малої нейронної мережі, наприклад, проблема XOR?

Відповіді:


2

Загальна відповідь на поведінку поєднання загальних функцій активації полягає в тому, що потрібно застосовувати закони обчислення, зокрема диференціальне числення, результати повинні бути отримані шляхом експерименту, щоб бути впевненим у якості зібраної функції, а додаткова складність, ймовірно, збільшити час обчислення. Виняток із такого збільшення буде, коли обчислювальне навантаження комбінації невелике порівняно з перевагами конвергенції, які надає комбінація.

Схоже, це стосується Swish, ім'я, яке надається функції активації, визначеної як

f(х)=хS(βх),

де f() є функцією Swish активації та S- сигмоїдна функція. Зауважте, що Swish не є суворо поєднанням функцій активації. Він утворюється за рахунок додавання гіперпараметраβ всередині сигмоподібної функції і множення входу до сигмоїдної функції.

Схоже, Google не розробляється. Оригінально поданий анонімно документ (для подвійного сліпого огляду як документ ICLR 2018), який шукає функції активації , був автором Праджита Рамачандрана, Баррета Зофа та Quoc V. Le близько 2017 року. Це їхня претензія.

Наші експерименти показують, що найкраща виявлена ​​функція активації, ... Swish, ... має тенденцію працювати краще, ніж ReLU, на більш глибоких моделях у ряді складних наборів даних.

Будь-яка зміна функції активації будь-якого одного шару, за винятком астрономічно рідкісного випадку, вплине на точність, надійність та обчислювальну ефективність. Чи є зміни суттєвими, не можна узагальнити. Ось чому нові ідеї тестуються на наборах даних, які традиційно використовуються для оцінки корисності 1 .

Поєднання функцій активації для формування нових функцій активації - нечасто. Наприклад, AlexNet не поєднує їх. 2 . Однак дуже часто застосовувати різні функції активації в різних шарах єдиного, ефективного дизайну мережі.


Виноски

[1] Чи створюють ці традиції упередження - інше питання. Ті, хто слідкує за теорією аналізу випадків використання, запровадженою шведським комп'ютерним вченим Іваром Хджальмаром Якобсоном або 6 ідеями Sigma, скажуть, що ці тести є одиничними тестами, а не функціональними тестами щодо справ реального використання, і вони мають сенс.

[2] Для виправлення будь-яких помилок, які можуть виникнути внаслідок іншої відповіді, AlexNet, назва, що надається підходу, викладеному в Класифікації ImageNet з глибокими конволюційними нейронними мережами (2012) Алекса Крижевського, Іллі Суцкевера та Джеффрі Е. Хінтона з університету університету Торонто, не передбачає поєднання функцій активації для формування нових. Вони пишуть це.

Вихід останнього повністю з’єднаного шару подається на 1000-сторонній софтмакс, який виробляє розподіл між мітками класу 1000.

...

Нелінійність ReLU застосовується до виходу кожного згорткового і повністю пов'язаного шару. Внутрішні шари - це чистий ReLU, а вихідний шар - Softmax.

Є також ядра згортки та об'єднання шарів у ряді шарів, що використовуються підходом AlexNet, і дизайн увійшов у загальне використання з часу їх перемоги в конкурсі ImageNet в 2012 році. Інші підходи виграли наступні змагання.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.