Чому сигмоїдна функція замість чого-небудь іншого?


40

Чому де-факто стандартна сигмоїдна функція настільки популярна в (неглибоких) нейронних мережах та логістичній регресії?11+ex

Чому б нам не скористатися багатьма іншими похідними функціями, з більш швидким часом обчислень або повільнішим розпадом (тому зникаючий градієнт трапляється менше). У Вікіпедії небагато прикладів щодо сигмоподібних функцій . Один з моїх улюблених із повільним занепадом та швидким розрахунком - .x1+|x|

EDIT

Питання відрізняється від Вичерпного переліку функцій активації в нейронних мережах із плюсами / мінусами, оскільки мене цікавить лише "чому" і лише для сигмоїди.


6
Зауважте, що логістична сигмоїда - це особливий випадок функції softmax, і дивіться мою відповідь на це запитання: stats.stackexchange.com/questions/145272/…
Neil G

10
Там є інші функції , такі як пробитий або cloglog, які зазвичай використовуються, див: stats.stackexchange.com/questions/20523 / ...
Тім

4
@ user777 Я не впевнений, чи це дублікат, оскільки нитка, на яку ви посилаєтесь, насправді не відповідає на питання, чому саме ви .
Тім

@KarelMacek, ви впевнені, що похідна не має лівої / правої межі 0? Практично виглядає так, що він має приємний тангенціал на пов'язаному зображенні з Вікіпедії.
Марк Хорват

5
Не люблю погоджуватися з такою кількістю шановних членів громади, які проголосували за те, щоб закрити це як дублікат, але мене переконують, що очевидний дублікат не відповідає "чому", і тому я проголосував за повторне відкриття цього питання.
качан

Відповіді:


24

Цитуючи себе з цієї відповіді на інше запитання:

У розділі 4.2 Розпізнавання образів та машинного навчання (Springer 2006) Бішоп показує, що логіт виникає природно як форма заднього розподілу ймовірностей у байєсівському трактуванні двокласової класифікації. Потім він показує, що те саме стосується дискретно розподілених функцій, а також підмножини родини експоненціальних розподілів. Для багатокласової класифікації логіт узагальнює до нормалізованої експоненціальної або софтмакс функції.

Це пояснює, чому цей сигмоїд використовується в логістичній регресії.

Що стосується нейронних мереж, у цьому дописі в блозі пояснюється, як різним нелінійностям, включаючи logit / softmax та probit, що використовуються в нейронних мережах, можна дати статистичну інтерпретацію і тим самим мотивацію. Основна ідея полягає в тому, що багатошарову нейронну мережу можна розглядати як ієрархію узагальнених лінійних моделей; відповідно до цього, функції активації - це функції зв’язку, які в свою чергу відповідають різним припущенням розподілу.


1
Чудово! Отже, коли ми використовуємо сигмоїди в мережі, ми можемо сказати, що ми неявно припускаємо, що мережа "моделює" ймовірності різних подій (у внутрішніх шарах або у виході). Це може бути розумною моделлю всередині мережі навіть для квадратичної помилки (дозволяючи вихідному нейрону іншу функцію активації). Ніколи раніше не думав про цю інтуїцію, дякую!
Марк Хорват

@MarkHorvath Радий, що можу допомогти. :-)
А.Донда

Історично не так. Мій найкращий підсумок безладної історії полягає в тому, що Логіт увійшов до статистичної науки значною мірою тому, що функціональні форми, які використовувались для прогнозування змін у часі (популяції, які очікуються, що слідують логістичним кривим), виглядали правильними, коли їх адаптували та приймали як функції зв’язку [анахронічне використання там!] Для бінарних відповідей. ; і їх легко маніпулювати простим обчисленням, вирази в абсолютних значеннях - ні. Але, звичайно, найпростіше логічне обгрунтування таких функцій є цікавим і важливим, і ваша відповідь на це відповідає.
Нік Кокс

1
Я читав розділи в обох книгах Бішопа (2006 та 1995 рр.), І досі не переконаний, що сигмоїд тут важливий, хоча я, безумовно, отримую мотивацію логітом. Що робити, якщо я записую ту саму функцію втрати перехресної ентропії на основі припущення 2-го класу Пуассона, але потім використовую іншу функцію активації замість сигмоїдної? Наприклад, цей подібний, але не дуже гарний, визначений кусочно: g (x) = 1 / (2-2x), якщо x <0, 1 - 1 / (2 + 2x) для x> 0, g (0) = 0,5. Тепер рівняння максимальної вірогідності виглядає інакше, але якщо ми його мінімізуємо, ми все одно отримуємо ймовірності як результати?
eraoul

якби Bischop взяв , "природно виникаючою" функцією буде , чи не так? a=p(x,C1)(1+p(x,C1))p(x,C2)a1+a2
Містер Цьолдер

18

Однією з причин, що ця функція може здаватися більш "природною", ніж інші, є те, що це, можливо, обернена канонічним параметром розподілу Бернуллі: (Функція в межах експонента називається канонічним параметром.)

f(y)=py(1p)1y=(1p)exp{ylog(p1p)}.
p

Можливо, більш переконливе обґрунтування виходить із теорії інформації, де сигмоїдну функцію можна вивести як модель максимальної ентропії . Грубо кажучи, сигмоїдна функція передбачає мінімальну структуру і відображає наше загальне невігластво щодо основної моделі.


Гарне обґрунтування логістичної регресії. Найцікавіше, що ми продовжуємо використовувати це також для помилок у квадраті ...
Марк Хорват

11

Я задаю собі це питання місяцями. У відповідях CrossValided та Quora всі перераховані приємні властивості логістичної сигмоїдної функції, але все здається, що ми вміло здогадалися про цю функцію. Те, що я пропустив, було виправданням його вибору. Нарешті я знайшов його у розділі 6.2.2.2 книги «Глибоке навчання» Бенджо (2016) . Моїми власними словами:

Коротше кажучи, ми хочемо, щоб логарифм виводу моделі був придатним для градієнтної оптимізації логістичної ймовірності навчальних даних.

Мотивація

  • Ми хочемо лінійну модель, але ми не можемо використовувати безпосередньо як .z=wTx+bz(,+)
  • Для класифікації має сенс припустити розподіл Бернуллі та моделювати його параметр в .θP(Y=1)=θ
  • Отже, нам потрібно зіставити від до щоб зробити класифікацію.z(,+)[0,1]

Чому функція логістичної сигмоїди?

Відсічення з дає нульовий градієнт для поза . Нам потрібен сильний градієнт всякий раз, коли прогноз моделі невірний, оскільки ми вирішуємо логістичну регресію з градієнтним спуском. Для логістичної регресії рішення закритої форми не існує.zP(Y=1|z)=max{0,min{1,z}}z[0,1]

Логістична функція має приємну властивість асимптотизувати постійний градієнт, коли прогноз моделі невірний, враховуючи, що ми використовуємо Максимальну оцінку ймовірності для відповідності моделі. Це показано нижче:

Для чисельних переваг можна оцінити максимальну ймовірність, зменшивши негативну ймовірність даних про навчання. Отже, наша витратна функція:

J(w,b)=1mi=1mlogP(Y=yi|xi;w,b)=1mi=1m(yilogP(Y=1|z)+(yi1)logP(Y=0|z))

Оскільки , ми можемо зосередитись на випадку . Отже, питання полягає в тому, як моделювати враховуючи, що у нас .P(Y=0|z)=1P(Y=1|z)Y=1P(Y=1|z)z=wTx+b

Очевидними вимогами до функції відображення в є:fzP(Y=1|z)

  • zR:f(z)[0,1]
  • f(0)=0.5
  • f має бути обертально симетричним wrt , тобто , так що перегортання знаків класів не впливає на функцію витрат.(0,0.5)f(x)=1f(x)
  • f має бути зменшуваним, безперервним та диференційованим.

Ці вимоги виконуються за допомогою зміни масштабів сигмоїдних функцій . І і їх виконують. Однак сигмоїдні функції відрізняються залежно від їх поведінки під час градієнтної оптимізації вірогідності ймовірностей. Різницю ми можемо побачити, включивши логістичну функцію у нашу функцію витрат.f(z)=11+ezf(z)=0.5+0.5z1+|z|f(z)=11+ez

Насичення дляY=1

Для і , вартість однієї неправильно класифікованої вибірки (тобто ) становить:P(Y=1|z)=11+ezY=1m=1

J(z)=log(P(Y=1|z))=log(11+ez)=log(ez1+ez)=z+log(1+ez)

Ми можемо бачити, що існує лінійна складова . Тепер ми можемо розглянути два випадки:z

  • Коли велике, передбачення моделі було правильним, оскільки . У функції витрат термін додає асимптоти до для великого . Таким чином, він приблизно скасовує вихід, що призводить до приблизно нульової вартості для цього зразка та слабкого градієнта. Це має сенс, оскільки модель вже передбачає правильний клас.zY=1log(1+ez)zzz
  • Коли мало (а велика), прогноз моделі було НЕ правильно, так . У функції витрат термін додає асимптоти до для малих . Таким чином, загальна вартість для цього зразка становить приблизно , тобто градієнт wrt становить приблизно . Це полегшує моделлю виправити неправильне передбачення на основі постійного градієнта, який вона отримує. Навіть для дуже маленького не відбувається насичення, яке може спричинити зникнення градієнтів.z|z|Y=1log(1+ez)0zzz1z

Насичення дляY=0

Вище ми зосередили увагу на випадку . Для функція витрат поводиться аналогічно, забезпечуючи сильні градієнти лише тоді, коли прогноз моделі невірний.Y=1Y=0

Це функція витрат для :J(z)Y=1

введіть тут опис зображення

Це функція softplus в горизонтальному напрямку. Для це функція softplus.Y=0

Альтернативи

Ви згадали альтернативи логістичної сигмоїдної функції, наприклад . У нормі це означатиме, що ми моделюємо .z1+|z|[0,1]P(Y=1|z)=0.5+0.5z1+|z|

Під час MLE функцією витрат для буде тодіY=1

J(z)=log(0.5+0.5z1+|z|) ,

що виглядає приблизно так:

введіть тут опис зображення

Ви можете бачити, що градієнт функції витрат стає слабкішим і слабшим для .z


Що ви маєте на увазі, коли пишете «коли модель помиляється»?
Габріель Ромон

@GabrielRomon Я маю на увазі, коли прогноз моделі невірний. Отже, для навчального зразка ми мали б, наприклад, , тобто наш прогноз - клас 1, але . (xi,yi)z=5yi=0
Кіліан Бацнер

6

Оскільки в первісному запитанні згадувалася проблема градієнта, що розпадається, я просто хотів би додати, що для проміжних шарів (де не потрібно інтерпретувати активації як ймовірності класу або виходи регресії), інші нелінійності часто віддають перевагу сигмоїдним функціям. Найбільш помітними є випрямлячі функції (як у ReLU ), які є лінійними над позитивною областю та нульовими над негативними. Однією з їх переваг є те, що вони менше піддаються проблемі градієнта, що розпадається, оскільки похідна є постійною над позитивною областю. ReLU стали популярними до того, що сигмоїди, ймовірно, вже не можна назвати де-факто стандартом.

Глоро та ін. (2011 р . ) . Нейрові мережі глибоких розріджених випрямлячів


2
Так. Я вважаю, що причина логістичної функції була такою популярною, що її імпорт із статистики. Relu - найпопулярніший у багатьох сферах нині.
Рікардо Крус
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.