Яка мета функції активації в нейронних мережах?


18

Кажуть, що функції активації в нейронних мережах допомагають запровадити нелінійність .

  • Що це означає?
  • Що означає нелінійність у цьому контексті?
  • Як допомагає запровадження цієї нелінійності ?
  • Чи є інші функції функцій активації ?

Відповіді:


14

Майже всі функціональні можливості, надані нелінійними функціями активації, надаються іншими відповідями. Дозвольте підсумувати їх:

  • По-перше, що означає нелінійність? Це означає щось (функція в даному випадку), яке не є лінійним щодо даної змінної / змінних, тобто`f(c1.x1+c2.x2...cn.xn+b)!=c1.f(x1)+c2.f(x2)...cn.f(xn)+b.
  • Що означає нелінійність у цьому контексті? Це означає, що нейронна мережа може успішно наближати функції (аж до певної помилки вирішив користувач), яка не дотримується лінійності, або вона може успішно передбачити клас функції, розділену не граничною лінією рішення.e
  • Чому це допомагає? Я навряд чи думаю, що ви можете знайти будь-яке явище фізичного світу, яке прямо слідує за лінійністю. Тому вам потрібна нелінійна функція, яка може наближати нелінійне явище. Також доброю інтуїцією буде будь-яка межа прийняття рішення або функція - це лінійна комбінація поліноміальних комбінацій вхідних ознак (так, зрештою, нелінійних).
  • Цілі функції активації? Крім введення нелінійності, кожна функція активації має свої особливості.

Sigmoid1(1+e(w1x1...wnxn+b))

Це одна з найпоширеніших функцій активації і монотонно зростає всюди. Зазвичай це використовується на кінцевому вузлі виводу, оскільки він розминає значення між 0 і 1 (якщо вихідний повинен бути 0або 1). Тому вище 0,5 вважається, 1а нижче 0,5 як 0, хоча інший поріг (не 0.5) може бути встановлений. Основна його перевага полягає в тому, що диференціювання є простим і використовує вже обчислені значення, і нібито нейрони нейронів крабського підкова мають цю активаційну функцію в своїх нейронах.

Tanh e(w1x1...wnxn+b)e(w1x1...wnxn+b))(e(w1x1...wnxn+b)+e(w1x1...wnxn+b)

Це має перевагу перед функцією активації сигмоїдів, оскільки вона має тенденцію до центру виведення до 0, що має ефект кращого вивчення на наступних шарах (діє як нормалізатор функції). Приємне пояснення тут . Негативні та позитивні вихідні значення можуть бути розглянуті як 0і 1відповідно. В основному використовується в RNN.

Функція активації Re-Lu - це ще одна дуже поширена проста нелінійна (лінійна в позитивному діапазоні та негативному діапазоні, виключаючи один одного), функція активації, яка має перевагу усунення проблеми зникаючого градієнта, з якою стикаються вищевказані два, тобто градієнт має тенденцію до0як x має тенденцію до + нескінченності або-нескінченності. Ось відповідь про силу наближення Ре-Лу, незважаючи на очевидну лінійність. Недоліком ReLu є наявність мертвих нейронів, що призводить до збільшення NN.

Також ви можете розробити власні функції активації залежно від вашої спеціалізованої проблеми. У вас може бути функція квадратичної активації, яка набагато краще наблизить квадратичні функції. Але тоді ви повинні розробити функцію витрат, яка має бути дещо опуклою за своєю суттю, щоб оптимізувати її за допомогою диференціалів першого порядку, і NN фактично наближається до гідного результату. Це основна причина використання стандартних функцій активації. Але я вважаю, що за допомогою належних математичних інструментів існує величезний потенціал для нових та ексцентричних функцій активації.

Наприклад, скажіть, що ви намагаєтеся наблизити одну змінну квадратичну функцію скажімо . Це найкраще наблизиться до квадратичної активації де і будуть відслідковуватися параметрами. Але проектування функції втрат, яка дотримується звичайного похідного методу першого порядку (градієнтний спуск), може бути досить важким для немонотично зростаючої функції.w 1. x 2 + b w 1 ba.x2+cw1.x2+bw1b

Для математиків: У функції активації сигмоїдів ми бачимо, що завжди < . Біноміальним розширенням або зворотним обчисленням нескінченного ряду GP отримуємо = Тепер у NN . Таким чином, ми отримуємо всі сили що дорівнює при цьому кожна сила можна розглядати як множення декількох занепадаючих експоненціалів на основі ознаки для eaxmplee - ( w 1 x 1 ... w n x n + b ) s i g m o я д ( у ) 1 + у + у 2 . . . . . у(1/(1+e(w1x1...wnxn+b))e(w1x1...wnxn+b) 1sigmoid(y)1+y+y2..... y e - ( w 1 x 1 ... w n x n + b ) yx y 2 = e - 2 ( w 1 x 1 ) e - 2 ( w 2 x 2 ) e -y=e(w1x1...wnxn+b)ye(w1x1...wnxn+b)yx y 2y2=e2(w1x1)e2(w2x2)e2(w3x3)......e2(b) . Таким чином, кожна особливість має слово у масштабуванні графіка .y2

Іншим способом мислення буде розширення експонентів відповідно до серії Taylor: введіть тут опис зображення

Таким чином, ми отримуємо дуже складну комбінацію з усіма можливими поліноміальними комбінаціями вхідних змінних. Я вважаю, що якщо нейронна мережа побудована правильно, NN може точно налаштувати ці поєднання поліномів, просто змінивши ваги з'єднання та вибравши максимально корисні умови поліномів, а також відхиливши умови, віднісши вивід 2 вузлів, зважених належним чином.

активації може працювати таким же чином , так як вихід . Я не впевнений, як працює Ре-Лу, але завдяки його жорсткій структурі і загибелі мертвих нейронів були потрібні більші мережі з РеЛу для гарного наближення.| t a n h | < 1tanh|tanh|<1

Але для отримання формального математичного доказування слід переглянути теорему універсального наближення.

Для не-математиків деякі кращі відомості відвідайте ці посилання:

Функції активації Ендрю Нг - для отримання більш формальної та наукової відповіді

Як класифікує класифікатор нейронної мережі за допомогою просто складання площини рішення?

Диференційована функція активації Візуальний доказ того, що нейронні мережі можуть обчислити будь-яку функцію


3
Я б заперечував, що ReLU насправді частіше зустрічається в НН, ніж сигмоїд :)
Андреас Сторвік Штрауман

@AndreasStorvikStrauman, і ти абсолютно прав ... Але у сигмоїда є дитина, яку називають softmax :)
DuttaA

7

Якби у вас були лише лінійні шари в нейронній мережі, всі шари по суті звалилися б до одного лінійного шару, і, отже, "глибока" архітектура нейронної мережі фактично вже не була б глибокою, а лише лінійним класифікатором.

y=f(W1W2W3x)=f(Wx)

де відповідає матриці, яка представляє мережеві ваги та зміщення для одного шару, а функції активації.Wf()

Тепер із впровадженням нелінійного блоку активації після кожного лінійного перетворення цього більше не відбудеться.

y=f1(W1f2(W2f3(W3x)))

Кожен шар тепер може базуватися на результатах попереднього нелінійного шару, що по суті призводить до складної нелінійної функції, яка здатна наближати кожну можливу функцію при правильному зважуванні та достатній глибині / ширині.


Слід зазначити, що хоча композиція з декількох лінійних операторів (на евклідовому просторі) завжди може бути згорнута до однієї матриці , це не означає, що замість цього зберігати окремі матриці ніколи не має сенсу. Зокрема, якщо відображається з простору високого розміру в низькомірний, а назад - з високим, то обчислювати дешевше, ніж . Отже, "інакше це було б еквівалентно одному шару" насправді не є аргументом, чому потрібні нелінійності між шарами. Насправді потрібно нелінійність .WW1,W2...W2W1W1(W2x)W(x)
близько

5

Давайте спочатку поговоримо про лінійність . Лінійність означає карту (функцію), , використовувана є лінійною картою, тобто вона задовольняє наступним двом умовамf:VW

  1. f(x+y)=f(x)+f(y),x,yV
  2. f(cx)=cf(x),cR

Ви повинні бути знайомі з цим визначенням, якщо ви вивчали лінійну алгебру раніше.

Однак важливіше думати про лінійність з точки зору лінійної відокремленості даних, а це означає, що дані можна розділити на різні класи, намалювавши лінію (або гіперплощину, якщо більше двох вимірів), що представляє собою лінійну межу рішення, через дані. Якщо ми не можемо цього зробити, то дані не є лінійно відокремленими. Часто випадки встановлення даних більш складних (і, отже, більш релевантних) задач не є лінійно відокремленими, тому нам цікаво моделювати їх.

Для моделювання нелінійних меж рішення даних ми можемо використовувати нейронну мережу, яка вводить нелінійність. Нейронні мережі класифікують дані, які не є лінійно відокремленими, перетворюючи дані за допомогою якоїсь нелінійної функції (або нашої функції активації), тому отримані перетворені точки стають лінійно відокремленими.

Для різних задач задачі використовуються різні функції активації. Про це ви можете прочитати у книзі « Глибоке навчання» (серія «Адаптивне обчислення та машинне навчання») .

Для прикладу нелінійно відокремлюваних даних дивіться набір даних XOR.

введіть тут опис зображення

Чи можете ви намалювати один рядок, щоб розділити два класи?


4

Лінійні многочлени першого ступеня

Нелінійність - не правильний математичний термін. Ті, хто його використовує, ймовірно, мають намір посилатися на поліноміальну залежність першого ступеня між входом і виходом, на такий тип відносин, який би сприймався як пряма, плоска площина або поверхня вищого ступеня без кривизни.

Для моделювання відносин, складніших за y = a 1 x 1 + a 2 x 2 + ... + b , потрібно більше, ніж лише ці два доданки наближення ряду Тейлора.

Налаштування функцій з ненульовою кривизною

Штучні мережі, такі як багатошаровий персептрон та його варіанти, є матрицями функцій з ненульовою кривизною, які, сприймаючись спільно як ланцюг, можуть бути настроєні за допомогою загасаючих сіток для наближення до складніших функцій ненульової кривизни. Ці більш складні функції, як правило, мають кілька входів (незалежних змінних).

Аттенюаційні сітки - це просто матричні векторні продукти, матриця - це параметри, налаштовані для створення схеми, яка наближає до більш складної вигнутої, багатоваріантної функції з більш простими вигнутими функціями.

Орієнтований на багатовимірний сигнал, що надходить зліва та результат, що з’являється праворуч (причинно-наслідковий зв’язок зліва направо), як і в конвенції електротехніки, вертикальні стовпчики називають шарами активації, здебільшого з історичних причин. Вони насправді є масивами простих вигнутих функцій. Сьогодні найчастіше використовуються активації.

  • ReLU
  • Leaky ReLU
  • ELU
  • Поріг (двійковий крок)
  • Логістичний

Функція ідентичності іноді використовується для передачі сигналів, недоторканих з різних структурних причин зручності.

Вони менш використовуються, але були в моді в той чи інший момент. Вони все ще використовуються, але втратили популярність, оскільки розміщують додаткові накладні витрати на обчислення розповсюдження спини і, як правило, програють у змаганнях за швидкість та точність.

  • Softmax
  • Сигмоїдний
  • TanH
  • ArcTan

Більш складні з них можуть бути параметризовані, і всі вони можуть бути збурені псевдовипадковим шумом для підвищення надійності.

Навіщо турбуватися з усім цим?

Штучні мережі не потрібні для налаштування добре розвинених класів взаємозв'язків між вхідним та бажаним результатом. Наприклад, їх легко оптимізувати, використовуючи добре розроблені методи оптимізації.

  • Поліноми вищого ступеня - Часто безпосередньо вирішуються за допомогою методик, отриманих безпосередньо з лінійної алгебри
  • Періодичні функції - можна лікувати методами Фур'є
  • Підганяння кривої - добре сходиться за допомогою алгоритму Левенберга – Маркварда, підходу з амортизованими найменшими квадратами

Для цього підходи, розроблені задовго до появи штучних мереж, часто можуть досягти оптимального рішення з меншими обчислювальними витратами та більшою точністю та надійністю.

У випадках, коли штучні мережі мають перевагу в придбанні функцій, щодо яких практикуючий лікар значною мірою не знає, або налаштування параметрів відомих функцій, для яких конкретні методи конвергенції ще не розроблені.

Багатошарові персептрони (АНН) налаштовують параметри (матрицю ослаблення) під час тренування. Настроювання спрямоване градієнтним спуском або одним із його варіантів для отримання цифрового наближення аналогової схеми, що моделює невідомі функції. Спуск градієнта визначається деякими критеріями, до яких керується поведінка ланцюга, порівнюючи виходи з цими критеріями. Критеріями можуть бути будь-які з них.

  • Відповідні мітки (бажані вихідні значення, що відповідають вкладам навчального прикладу)
  • Необхідність передачі інформації через вузькі сигнальні шляхи та реконструкцію з цієї обмеженої інформації
  • Ще один критерій, притаманний мережі
  • Інші критерії, що виникають із джерела сигналу з-за меж мережі

Підсумки

Підсумовуючи, функції активації забезпечують будівельні блоки, які можуть багаторазово використовуватись у двох вимірах мережевої структури, так що в поєднанні з матрицею ослаблення для зміни ваги сигналізації від шару до шару, як відомо, можна наближати довільну і складна функція.

Глибше хвилювання мережі

Після тисячоліття хвилювання щодо більш глибоких мереж пов'язане з тим, що закономірності в двох різних класах складних внесків були успішно ідентифіковані та застосовані до використання на великих ринках бізнесу, споживачів та наукових компаній.

  1. Гетерогенні та семантично складні структури
  2. Медіафайли та потоки (зображення, відео, аудіо)

Але питання
стосувалося

@DuttaA, ваш коментар був точним. Дякую. У відповіді було лише одне речення, яке безпосередньо відповідало на запитання, і прив’язка до решти цієї відповіді не надто добре повідомлялася. Я його істотно відредагував.
Фахристиян

Це насправді найкраща відповідь, має бути більше результатів і має бути прийнятою відповіддю.
DuttaA

4

x1x1

w11,w12,w21w22

o1=w11x1+w12x2o2=w21x1+w22x2

z1z2

out=z1o1+z2o2

o1o2

out=z1(w11x1+w12x2)+z2(w21x1+w22x2)

або

out=(z1w11+z2w21)x1+(z2w22+z1w12)x2

z1w11+z2w21z2w22+z1w12

Висновок: без нелінійності обчислювальна потужність багатошарового NN дорівнює 1-шаровому NN.

Крім того, ви можете вважати сигмоподібну функцію як диференційовану, якщо висловлення, яке дає ймовірність. І додавання нових шарів може створювати нові, більш складні комбінації операторів IF. Наприклад, перший шар поєднує в собі риси та надає ймовірності наявності на зображенні очей, хвоста та вух, другий поєднує нові, більш складні риси з останнього шару та дає ймовірність наявності кішки.

Для отримання додаткової інформації: Посібник Хекера по нейронних мережах .


2

Немає мети функції активації в штучній мережі, подібно до того, як немає значення 3 в факторах числа 21. Багатошарові персептрони та повторювані нейронні мережі були визначені як матриця комірок, кожна з яких містить одну . Видаліть функції активації, і все, що залишилося, - це серія марних множин матриць. Видаліть 3 з 21, і результат виходить не менш ефективним 21, але зовсім іншим числом 7.

axaax

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.