Чому ваги нейронних мереж ініціалізуються випадковими числами?


9

Чому початкові ваги нейронних мереж ініціалізуються як випадкові числа? Я десь читав, що це робиться для "порушення симетрії", і це змушує нейронну мережу швидше вчитися. Як порушення симетрії змушує її швидше вчитися?

Не вдалося б ініціалізувати ваги до 0 кращою ідеєю? Таким чином ваги зможуть швидше знайти свої значення (позитивні чи негативні)?

Чи є якась інша основна філософія, яка стоїть за рандомізацією ваг, крім сподівання, що вони будуть близькими до своїх оптимальних значень при ініціалізації?

Відповіді:


6

Основна інтуїція, що ініціалізує вагові шари на невеликі (і різні) значення, полягає лише в тому, що зміщення системи порушено і значення ваги можуть рухатися вздовж і вдалині і осторонь різних значень.

Більш конкретно, ви, мабуть, хочете, щоб ваші початкові ваги були чіткими і мали "невеликий зазор" між ними, цей "проміжок" розширюється по мірі руху і змушує ваги бути трохи більшими при кожній ітерації, і це допомагає мережа для швидшого зближення, тобто процес навчання прискорюється.

Якщо б замість цього всі ваги були деякими постійними, кожна вага буде оновлюватися дуже повільною (~ фіксованою) швидкістю, і це не допоможе багато, особливо якщо початкові значення "дуже далекі" від кінцевих значень.

Сподіваюся, що це допомагає, весело навчайтесь :)


Отже, те, що ви говорите, рандомізує початкові ваги, еквівалентно наданню кожної ваги натисканням у напрямку, в якому вона повинна рухатися (і розрив збільшується).
Шаян РК

Я не думаю, що це має бути в правильному напрямку, ви також можете почати з init масою [-0,5, +0,5], де кінцеві значення можуть бути [+0,5, -0,5], ключова ідея має різні значення ..
Субхаян

Минуло більше року, як я працював з NN, тому я розмовляю ручно хвилястою манерою, будь ласка, дайте мені знати, чи хочете ви мати математику. але я вважаю, що тут важливіше зрозуміти інтуїцію, математика майже доступна всюди .. :)
Subhayan

Математика, що стоїть за цим, була б корисною, але ще кориснішою була б кілька практичних порад: Як, наскільки маленькими повинні бути початкові ваги (10 ^?) Як вони змінюються для різних типів мереж? Чи є якісь магічні числа, які працюють для всіх?
Шаян РК
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.