Посилаючись на примітки курсу Стенфорда про конволюційні нейронні мережі для візуального розпізнавання , в пункті сказано:
"На жаль, підрозділи ReLU можуть бути крихкими під час тренування і можуть" померти ". Наприклад, великий градієнт, що протікає через нейрон ReLU, може призвести до того, що ваги оновлюються таким чином, що нейрон ніколи більше не активується на будь-якій точці даних. Якщо це У такому разі градієнт, що протікає через пристрій, назавжди буде нульовим. Тобто, підрозділи ReLU можуть безповоротно загинути під час тренування, оскільки вони можуть вибити з колектора даних. Наприклад, ви можете виявити, що цілих 40 % вашої мережі можуть бути "мертвими" (тобто нейрони, які ніколи не активуються протягом усього навчального набору даних), якщо рівень навчання встановлений занадто високим. При правильному встановленні рівня навчання це проблема рідше ".
Що означає тут загибель нейронів?
Підкажіть, будь ласка, інтуїтивне пояснення більш простими словами.