Наука про дані activation-function

2

Чому ReLU використовується як функція активації?

Функції активації використовуються для введення нелінійностей у лінійний вихід типу w * x + bв нейронній мережі. Який я здатний зрозуміти інтуїтивно для таких функцій активації, як сигмоїд. Я розумію переваги ReLU, яка уникає мертвих нейронів під час розмноження. Однак я не в змозі зрозуміти, чому ReLU використовується як функція …

19 machine-learning neural-network deep-learning activation-function

2

Що таке активація GELU?

Я переглядав папір BERT, в якій використовується GELU (лінійна одиниця помилок Гаусса), яка визначає рівняння як що в свою чергу наближається доGELU(x)=xP(X≤x)=xΦ(x).GELU(x)=xP(X≤x)=xΦ(x). GELU(x) = xP(X ≤ x) = xΦ(x).0.5x(1+tanh[2/π−−−√(x+0.044715x3)])0.5x(1+tanh[2/π(x+0.044715x3)])0.5x(1 + tanh[\sqrt{ 2/π}(x + 0.044715x^3)]) Чи можете ви спростити рівняння та пояснити, як воно було наближене.

18 activation-function bert mathematics

1

Чому ReLU кращий за інші функції активації

Тут відповідь стосується зникаючих та вибухових градієнтів, які були у sigmoidподібних функціях активації, але, я думаю, Reluмає недолік, і це його очікуване значення. немає обмежень на вихід Reluта, тому його очікуване значення не дорівнює нулю. Я пам'ятаю час , перш ніж популярність , Reluщо tanhбув найпопулярнішим серед машинного навчання фахівців …

17 machine-learning neural-network deep-learning gradient-descent activation-function

1

Різниця функцій активації в нейронних мережах загалом

Я вивчив типи функцій активації для нейронних мереж. Самі функції досить прості, але різниця в застосуванні не зовсім зрозуміла. Розумно, що можна розрізняти логічні та лінійні функції типу, залежно від бажаного бінарного / безперервного виводу, але яка перевага сигмоїдної функції перед простою лінійною? Наприклад, для мене дуже важко зрозуміти ReLU: …

15 neural-network activation-function

Запитання з тегом «activation-function»