Запитання з тегом «bert»

2
Що таке активація GELU?
Я переглядав папір BERT, в якій використовується GELU (лінійна одиниця помилок Гаусса), яка визначає рівняння як що в свою чергу наближається доGELU(x)=xP(X≤x)=xΦ(x).GELU(x)=xP(X≤x)=xΦ(x). GELU(x) = xP(X ≤ x) = xΦ(x).0.5x(1+tanh[2/π−−−√(x+0.044715x3)])0.5x(1+tanh[2/π(x+0.044715x3)])0.5x(1 + tanh[\sqrt{ 2/π}(x + 0.044715x^3)]) Чи можете ви спростити рівняння та пояснити, як воно було наближене.
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.