f( х ) = max ( 0 , x ) .
Одним із способів покращення нейромереж ReLU є прискорення навчання. Обчислення градієнта дуже просте (або 0, або 1, залежно від знака ). Крім того, крок обчислення для ReLU простий: будь-які негативні елементи встановлюються на 0,0 - немає експоненцій, ніяких операцій множення чи ділення.х
Градієнти логістичних та гіперболічних дотичних мереж менші за позитивну частину ReLU. Це означає, що позитивна частина оновлюється швидше в міру прогресування навчання. Однак це приходить дорожче. Градієнт 0 в лівій частині має свою проблему, яку називають "мертвими нейронами", в якій оновлення градієнта встановлює вхідні значення в ReLU таким чином, що вихід завжди дорівнює нулю; модифіковані блоки ReLU, такі як ELU (або Leaky ReLU, або PReLU тощо), можуть покращити це.
ггхReLU ( x ) = 1 ∀ x > 0 . Навпаки, градієнт сигмоподібної одиниці становить не більше ; з іншого боку, для вхідних даних у регіоні близько 0, оскільки (приблизно).0,25тан0,25 < дгхтан( x ) ≤ 1 ∀ x ∈ [ - 1.31 , 1.31 ]