Тут відповідь стосується зникаючих та вибухових градієнтів, які були у sigmoidподібних функціях активації, але, я думаю, Reluмає недолік, і це його очікуване значення. немає обмежень на вихід Reluта, тому його очікуване значення не дорівнює нулю. Я пам'ятаю час , перш ніж популярність , Reluщо tanhбув найпопулярнішим серед машинного навчання фахівців , а не sigmoid. Причиною було те, що очікуване значення рівня tanhдорівнювало нулю, і це допомагало навчанню в більш глибоких шарах бути більш швидким в нейронній мережі. Reluця характеристика не має, але чому вона працює так добре, якщо відкласти її похідну перевагу. Більше того, я думаю, похідна також може вплинути. Тому що активації (вихідRelu) залучаються до обчислення правил оновлення.
CNNнормалізація виходу з reluне звичайна? Принаймні, я ніколи цього не бачив.