Ось чому, мабуть, краща ідея використовувати PReLU, ELU або інші протікаючі активізовані ReLU активації, які не просто відмирають до 0, але які падають на щось на кшталт 0,1 * x, коли х стає негативним, щоб продовжувати вчитися. Мені давно здавалося, що ReLU - це історія, як сигмоїда, хоча чомусь люди все ще публікують документи з цими. Чому? Не знаю.
Дмитро Мішкін та інші хлопці насправді випробували мережу з великою кількістю різних типів активації, ви повинні вивчити їх висновки щодо виконання різних функцій активації та інших речей. Деякі функції, як-от XOR, краще вивчити за допомогою звичайного ReLU. Не думайте про будь-які нейронні речі в догматичному плані, тому що нейронні мережі дуже багато працюють. Ніхто в світі насправді не знає і не розуміє їх досить добре, щоб сказати божественну правду. Ніхто. Спробуйте щось, зробіть власні відкриття. Майте на увазі, що використання ReLU саме по собі є нещодавньою розвитком, і протягом десятиліть усі різні докторанти в цій галузі використовували надскладні функції активації, про які ми тепер можемо лише сміятися. Занадто часто «занадто багато знаючи» може принести вам погані результати. Важливо розуміти, що нейронні мережі не є точною наукою. Ніщо в математиці не говорить про те, що нейронні мережі насправді працюватимуть так само добре, як і вони. Це евристично. І тому це дуже ковче.
Навіть активація абсолютного значення FYI дає хороші результати щодо деяких проблем, наприклад, таких як XOR. Різні функції активації краще підходять для різних цілей. Я спробував Cifar-10 з abs (), і здавалося, він працює гірше. Хоча я не можу сказати, що "це гірша функція активації для візуального розпізнавання", тому що я не впевнений, наприклад, якщо моя попередня ініціалізація була оптимальною для цього і т. Д. Сам факт, що він навчався порівняно добре мене вразило.
Крім того, в реальному житті "похідні", які ви переходите на задній план, не обов'язково повинні відповідати фактичним математичним похідним.
Я навіть хотів би сказати, що ми повинні заборонити називати їх "похідними" і почати називати їх чимось іншим, наприклад, error activation functions
щоб не закривати свою думку перед можливостями повороту з ними. Наприклад, ви можете використовувати активацію ReLU, але надати 0,1 або щось подібне замість 0 як похідну для x <0. У певному сенсі у вас є звичайна ReLU, але з нейронами не в змозі "померти від пристосованості". Я називаю це NecroRelu, тому що це ReLU, який не може померти. І в деяких випадках (напевно, не в більшості) це працює краще, ніж звичайний LeakyReLU, який насправді має 0,1 похідну при x <0 і краще, ніж звичайний ReLU. Я не думаю, що занадто багато інших досліджували таку функцію, хоча це, або щось подібне, насправді може бути загалом класною функцією активації, яку ніхто не вважав лише тому, що вони занадто зосереджені на математиці.
Що стосується того, що зазвичай використовується, для функції активації tanH (x) звичайна річ передає 1 - x² замість 1 - tanH (x) ² як похідну для швидшого обчислення речей.
Також майте на увазі, що ReLU - це не все, що "очевидно краще", ніж, наприклад, TanH. ТанХ, мабуть, може бути кращим у деяких випадках. Просто, так здається, не у візуальному розпізнаванні. Хоча, наприклад, ELU має трохи сигмовидної м'якості, і це одна з найвідоміших функцій активації для візуального розпізнавання на даний момент. Я насправді не намагався, але, думаю, можна встановити кілька груп з різними функціями активації на одному рівні шару. Тому що різну логіку краще описати з різними функціями активації. І іноді вам, мабуть, потрібно кілька типів оцінювання.
Зауважте, що важливо мати інтіалізацію, що відповідає типу вашої функції активації. Наприклад, витікаючі релізи потребують інших init, що є простими ReLU.
EDIT: Насправді, стандартний ReLU виглядає менш схильним до надмірного оснащення сучасних архітектур. Принаймні, в розпізнаванні зображень. Здається, що якщо ви збираєтеся в мережі з дуже високою точністю з величезним навантаженням параметрів, можливо, буде краще дотримуватися звичайних ReLU та непрохідних варіантів. Але, звичайно, протестуйте все це власноруч. Можливо, деякі протікаючі речі будуть працювати краще, якщо буде надано більше регуляризації.