Тут відповідь стосується зникаючих та вибухових градієнтів, які були у sigmoid
подібних функціях активації, але, я думаю, Relu
має недолік, і це його очікуване значення. немає обмежень на вихід Relu
та, тому його очікуване значення не дорівнює нулю. Я пам'ятаю час , перш ніж популярність , Relu
що tanh
був найпопулярнішим серед машинного навчання фахівців , а не sigmoid
. Причиною було те, що очікуване значення рівня tanh
дорівнювало нулю, і це допомагало навчанню в більш глибоких шарах бути більш швидким в нейронній мережі. Relu
ця характеристика не має, але чому вона працює так добре, якщо відкласти її похідну перевагу. Більше того, я думаю, похідна також може вплинути. Тому що активації (вихідRelu
) залучаються до обчислення правил оновлення.
CNN
нормалізація виходу з relu
не звичайна? Принаймні, я ніколи цього не бачив.