1
Чому ReLU кращий за інші функції активації
Тут відповідь стосується зникаючих та вибухових градієнтів, які були у sigmoidподібних функціях активації, але, я думаю, Reluмає недолік, і це його очікуване значення. немає обмежень на вихід Reluта, тому його очікуване значення не дорівнює нулю. Я пам'ятаю час , перш ніж популярність , Reluщо tanhбув найпопулярнішим серед машинного навчання фахівців …