Я багато читав про нейромережі, що розвиваються, і цікавився, як вони уникають проблеми градієнта, що зникає. Я знаю, що мережі глибокої віри складають однорівневі автокодери або інші заздалегідь підготовлені неглибокі мережі, і таким чином можна уникнути цієї проблеми, але я не знаю, як цього уникнути в CNN.
За даними Вікіпедії :
"незважаючи на вищезазначену" проблему градієнта, що зникає, "перевершена потужність процесорів GPU робить звичайне зворотне поширення можливим для глибоких нейронних мереж з багатьма шарами".
Я не розумію, чому обробка GPU видалить цю проблему?
GPU's are fast correlated with vanishing gradients
я можу зрозуміти швидку логіку з великою пропускною здатністю пам'яті для обробки декількох матричних множин! але ви можете, будь ласка, пояснити, що це стосується похідних? Проблема градієнта, що зникає, здається, більше справляється з ініціалізацією ваги , чи не так!