Чому ваги нейронних мереж ініціалізуються випадковими числами?

Чому початкові ваги нейронних мереж ініціалізуються як випадкові числа? Я десь читав, що це робиться для "порушення симетрії", і це змушує нейронну мережу швидше вчитися. Як порушення симетрії змушує її швидше вчитися?

Не вдалося б ініціалізувати ваги до 0 кращою ідеєю? Таким чином ваги зможуть швидше знайти свої значення (позитивні чи негативні)?

Чи є якась інша основна філософія, яка стоїть за рандомізацією ваг, крім сподівання, що вони будуть близькими до своїх оптимальних значень при ініціалізації?

machine-learning artificial-intelligence neural-networks

— Шаян РК
джерело

Основна інтуїція, що ініціалізує вагові шари на невеликі (і різні) значення, полягає лише в тому, що зміщення системи порушено і значення ваги можуть рухатися вздовж і вдалині і осторонь різних значень.

Більш конкретно, ви, мабуть, хочете, щоб ваші початкові ваги були чіткими і мали "невеликий зазор" між ними, цей "проміжок" розширюється по мірі руху і змушує ваги бути трохи більшими при кожній ітерації, і це допомагає мережа для швидшого зближення, тобто процес навчання прискорюється.

Якщо б замість цього всі ваги були деякими постійними, кожна вага буде оновлюватися дуже повільною (~ фіксованою) швидкістю, і це не допоможе багато, особливо якщо початкові значення "дуже далекі" від кінцевих значень.

Сподіваюся, що це допомагає, весело навчайтесь :)

— Субгаян
джерело

Отже, те, що ви говорите, рандомізує початкові ваги, еквівалентно наданню кожної ваги натисканням у напрямку, в якому вона повинна рухатися (і розрив збільшується).

— Шаян РК

Я не думаю, що це має бути в правильному напрямку, ви також можете почати з init масою [-0,5, +0,5], де кінцеві значення можуть бути [+0,5, -0,5], ключова ідея має різні значення ..

— Субхаян

Минуло більше року, як я працював з NN, тому я розмовляю ручно хвилястою манерою, будь ласка, дайте мені знати, чи хочете ви мати математику. але я вважаю, що тут важливіше зрозуміти інтуїцію, математика майже доступна всюди .. :)

— Subhayan

Математика, що стоїть за цим, була б корисною, але ще кориснішою була б кілька практичних порад: Як, наскільки маленькими повинні бути початкові ваги (10 ^?) Як вони змінюються для різних типів мереж? Чи є якісь магічні числа, які працюють для всіх?

— Шаян РК