Під час тренування нейронної мережі з використанням алгоритму зворотного розповсюдження використовується метод градієнтного спуску для визначення оновлень ваги. Моє запитання: Замість того, щоб використовувати метод градієнтного спуску, щоб повільно знаходити мінімальну точку щодо певної ваги, чому ми не просто встановимо похідну , і знайти значення вагиw,яке мінімізує помилку?
Крім того, чому ми впевнені, що функція помилок у зворотному розповсюдженні буде мінімальною? Чи не може вийти, що функція помилок максимальна? Чи є специфічна властивість функцій сквошінгу, яка гарантує, що мережа з будь-якою кількістю прихованих вузлів з довільними вагами та векторами вводу завжди надасть функцію помилок, яка має деякі мінімуми?