Чому функції активації повинні бути монотонними?

Зараз я готуюсь до іспиту з нейронних мереж. У кількох протоколах попередніх іспитів я читав, що функції активації нейронів (у багатошарових персептронах) повинні бути монотонними.

Я розумію, що функції активації повинні бути диференційованими, мати похідну, яка не є 0 у більшості точок, і бути нелінійною. Я не розумію, чому бути монотонним важливо / корисно.

Мені відомі наступні функції активації і що вони монотонні:

ReLU
Сигмоїдний
Тан
Softmax: Я не впевнений, що визначення одноманітності застосовується для функцій з $f: \mathbb{R}^n \rightarrow \mathbb{R}^m$ $n, m > 1$
Softplus
(Особистість)

Однак я досі не бачу жодної причини, чому, наприклад, . $\varphi(x) = x^2$

Чому функції активації повинні бути монотонними?

(Супутнє бокове запитання: чи є якась причина, чому логарифм / експоненціальна функція не використовується як функція активації?)

machine-learning neural-network

— Мартін Тома
джерело

FYI: Вичерпний перелік функцій активації в нейронних мережах із плюсами та мінусами

— Франк Дернонкурт

@MartinThoma Ви впевнені, що softmax одноманітний?

— Медіа

f : R^{n} \to R^{m}

$f:R^n \rightarrow R^m$

m > 1

$m > 1$

m = 1

$m=1$

<

$<$

R^{n}

$R^n$

n > 1

$n>1$

@MartinThoma Спасибі, насправді це також було моїм питанням. Я не знав і досі не знаю, чи є розширення для монотонного у функціях з декількома виходами. Математичні речі, ви знаєте!

— Медіа

Відповіді:

Критерій монотонності допомагає нейронній мережі легше перейти в більш точний класифікатор. Детальнішу інформацію та причини див. У цій статті відповіді на stackexchange та wikipedia .

Однак критерій монотонності не є обов'язковим для функції активації. Також можливо тренувати нейронні мережі з немонотонними функціями активації. Просто оптимізувати нейронну мережу стає важче. Дивіться відповідь Йошуа Бенджо .

— Девід Дао
джерело

-1

Я надам більш математичну причину, чому допомагає монотонна функція!

Використовуючи http://mathonline.wikidot.com/lebesgue-s-theorem-for-the-differentiability-of-monotone-fun , вважаючи, що наша функція активації є монотонною, можна сказати, що на реальній лінії наша функція буде диференційований. Отже, градієнт функції активації не буде помилковою функцією. Простіше буде знайти мінімуми, які ми шукаємо. (обчислювально недорогий)

Експоненціальна та логарифмічна функції є прекрасними функціями, але не обмежені (Отже, зворот теореми Лебега не відповідає дійсності, оскільки Exp і Log є диференційованими функціями, які не обмежені реальною лінією). Отже, вони не вдається, коли ми хочемо класифікувати наші приклади на завершальній стадії. Сигмоїд і танг працюють дуже добре, оскільки мають градієнти, які легко обчислити, і їх діапазон (0,1) та (-1,1) відповідно.

— Рохіт Рават
джерело

Існує нескінченно багато диференційованих, але не монотонних функцій. То чому ж монотонна функція допомагає?

— Мартін Тома