Чому початкові ваги нейронних мереж ініціалізуються як випадкові числа? Я десь читав, що це робиться для "порушення симетрії", і це змушує нейронну мережу швидше вчитися. Як порушення симетрії змушує її швидше вчитися?
Не вдалося б ініціалізувати ваги до 0 кращою ідеєю? Таким чином ваги зможуть швидше знайти свої значення (позитивні чи негативні)?
Чи є якась інша основна філософія, яка стоїть за рандомізацією ваг, крім сподівання, що вони будуть близькими до своїх оптимальних значень при ініціалізації?