Відповіді:
Ви здебільшого правильні! У ReLU виникає проблема з градієнтом, що зникає, але лише з одного боку, тому ми називаємо це ще чимось: «вмираючою проблемою ReLU». Додаткову інформацію див. У цій відповіді щодо переповнення стека. Що таке проблема "вмираючої ReLU" у нейронних мережах?
Це невелика смислова різниця. Багато функцій (tanh та logistic / sigmoid) мають похідні дуже близькі до нуля, коли ви знаходитесь поза стандартним робочим діапазоном. Це питання "зникаючого градієнта". Чим гірше ви станете, тим важче повернутися в хорошу зону. ReLU не погіршується, чим далі ви знаходитесь в позитивному напрямку, тому не виникає проблем з градієнтом (на цій стороні). Цієї асиметрії може бути достатньо, щоб виправдати називати це чимось іншим, але ідеї досить схожі.
Зникнення означає, що вона йде в бік 0, але насправді ніколи не буде 0. Якщо градієнти 0 становлять дуже прості обчислення, градієнти, близькі до 0, означає, що є зміни, просто дуже крихітні, що означають повільне навчання та числові проблеми. 1 і 0 - це два найпростіших числа для обчислення в таких проблемах оптимізації.