Загальна відповідь на поведінку поєднання загальних функцій активації полягає в тому, що потрібно застосовувати закони обчислення, зокрема диференціальне числення, результати повинні бути отримані шляхом експерименту, щоб бути впевненим у якості зібраної функції, а додаткова складність, ймовірно, збільшити час обчислення. Виняток із такого збільшення буде, коли обчислювальне навантаження комбінації невелике порівняно з перевагами конвергенції, які надає комбінація.
Схоже, це стосується Swish, ім'я, яке надається функції активації, визначеної як
f( x ) = xS (βх ),
де f( ) є функцією Swish активації та S- сигмоїдна функція. Зауважте, що Swish не є суворо поєднанням функцій активації. Він утворюється за рахунок додавання гіперпараметраβ всередині сигмоподібної функції і множення входу до сигмоїдної функції.
Схоже, Google не розробляється. Оригінально поданий анонімно документ (для подвійного сліпого огляду як документ ICLR 2018), який шукає функції активації , був автором Праджита Рамачандрана, Баррета Зофа та Quoc V. Le близько 2017 року. Це їхня претензія.
Наші експерименти показують, що найкраща виявлена функція активації, ... Swish, ... має тенденцію працювати краще, ніж ReLU, на більш глибоких моделях у ряді складних наборів даних.
Будь-яка зміна функції активації будь-якого одного шару, за винятком астрономічно рідкісного випадку, вплине на точність, надійність та обчислювальну ефективність. Чи є зміни суттєвими, не можна узагальнити. Ось чому нові ідеї тестуються на наборах даних, які традиційно використовуються для оцінки корисності 1 .
Поєднання функцій активації для формування нових функцій активації - нечасто. Наприклад, AlexNet не поєднує їх. 2 . Однак дуже часто застосовувати різні функції активації в різних шарах єдиного, ефективного дизайну мережі.
Виноски
[1] Чи створюють ці традиції упередження - інше питання. Ті, хто слідкує за теорією аналізу випадків використання, запровадженою шведським комп'ютерним вченим Іваром Хджальмаром Якобсоном або 6 ідеями Sigma, скажуть, що ці тести є одиничними тестами, а не функціональними тестами щодо справ реального використання, і вони мають сенс.
[2] Для виправлення будь-яких помилок, які можуть виникнути внаслідок іншої відповіді, AlexNet, назва, що надається підходу, викладеному в Класифікації ImageNet з глибокими конволюційними нейронними мережами (2012) Алекса Крижевського, Іллі Суцкевера та Джеффрі Е. Хінтона з університету університету Торонто, не передбачає поєднання функцій активації для формування нових. Вони пишуть це.
Вихід останнього повністю з’єднаного шару подається на 1000-сторонній софтмакс, який виробляє розподіл між мітками класу 1000.
...
Нелінійність ReLU застосовується до виходу кожного згорткового і повністю пов'язаного шару. Внутрішні шари - це чистий ReLU, а вихідний шар - Softmax.
Є також ядра згортки та об'єднання шарів у ряді шарів, що використовуються підходом AlexNet, і дизайн увійшов у загальне використання з часу їх перемоги в конкурсі ImageNet в 2012 році. Інші підходи виграли наступні змагання.