Чому початкові ваги в нейронній мережі рандомізовані?

Це може здатися дурним для того, хто має багато досвіду роботи з нейронними мережами, але це мене турбує ...

Я маю на увазі рандомізацію початкових ваг, можливо, ви отримаєте кращі результати, які будуть дещо ближче до того, як повинна виглядати тренувальна мережа, але це може бути точно протилежним тому, яким воно має бути, в той час як 0,5 або деякий інший середній для діапазону розумної ваги значення буде звучати як гарне значення за замовчуванням ...

Чому початкові ваги нейронів рандомізуються, а не 0,5 для всіх?

neural-networks training

— Матас Вайткевічус
джерело

Яка проблема була з моєю редагуванням? Як ви думаєте, ви не можете покращитись?

— nbro

@nbro додає кілька запитань, що робить його занадто широким ...

— Matas Vaitkevicius

Які питання я додав, які відсутні у вашій публікації? Я просто переформулював як питання, що ви висловлювали як гіпотези.

— nbro

До речі, ваше формулювання навіть не правильне. Ваги не рандомізовані, але вони випадково ініціалізуються. Це дві різні концепції, і ви мали на увазі другу. Моя редакція мала на меті також покращити формулювання.

— nbro

@nbro Привіт, дивись, я не був непристойним і, звичайно, не хотів тебе образити. Мені погано також задавати питання, формулювання та все. Тож мені шкода, якщо я образив тебе.

— Матас Вайткевічус

Відповіді:

Початкові ваги в нейронній мережі ініціалізуються випадковим чином, оскільки методи, засновані на градієнті, зазвичай використовуються для тренування нейронних мереж, не працюють добре, коли всі ваги ініціалізуються на одне значення. Хоча не всі методи тренування нейронних мереж базуються на градієнті, більшість з них є, і в кількох випадках було показано, що ініціалізація нейронної мережі до одного і того ж значення змушує мережу зайняти набагато більше часу, щоб сходити оптимальне рішення. Крім того, якщо ви хочете перевчити свою нервову мережу, оскільки вона застрягла в локальних мінімумах, вона застрягне в тих же локальних мінімумах. З вищезазначених причин ми не встановлюємо початкові ваги постійним значенням.

Посилання: Чому зворотне розповсюдження не працює, коли ви ініціалізуєте ваги однакового значення?

— Ейден Гроссман
джерело

Насправді вони руйнуються, якщо всі ваги однакові.

— Quonux

Не слід призначати всі 0,5, оскільки у вас виникне проблема "симетрія розриву".

http://www.deeplearningbook.org/contents/optimization.html

Мабуть, єдина властивість, яка з цілковитою впевненістю відома, полягає в тому, що початкові параметри повинні " порушувати симетрію " між різними одиницями. Якщо два приховані блоки з однаковою функцією активації підключені до одних і тих же входів, то ці блоки повинні мати різні початкові параметри. Якщо вони мають однакові початкові параметри, то детермінований алгоритм навчання, застосований до детермінованих витрат і моделі, буде постійно оновлювати обидва ці одиниці однаково. Навіть якщо модель або алгоритм навчання здатний використовувати стохастичність для обчислення різних оновлень для різних підрозділів (наприклад, якщо один тренується зі скиданням), зазвичай найкраще ініціалізувати кожен блок для обчислення різної функції від усіх інших підрозділів. Це може допомогти переконатися, що жодні вхідні шаблони не втрачаються в нульовому просторі прямого поширення і не втрачаються шаблони градієнта в нульовому просторі зворотного поширення.

— Привіт Світ
джерело

Це дуже глибоке питання. Нещодавно з'явилася серія робіт з підтвердженням збіжності градієнтного спуску для перепараметризованої глибокої мережі (наприклад, градієнтний спуск виявляє глобальні мінімуми глибоких нейронних мереж , теорія конвергенції глибокого навчання за допомогою надпараметризації або стохастичний градієнт спуску оптимізує надпараметризовану глибину Мережі ReLU ). Усі вони обумовлюють доказ випадкового гауссового розподілу ваг. Важливо, щоб докази залежать від двох факторів:

Випадкові ваги роблять ReLU статистично стислим відображенням (аж до лінійного перетворення)
Випадкові ваги зберігають розділення вхідних даних для будь-якого вхідного розподілу - тобто, якщо вхідні зразки відрізняються, мережеве поширення не зробить їх неподільними

Ці властивості дуже важко відтворити детермінованими матрицями, і навіть якщо вони відтворюються за допомогою детермінованих матриць NULL-простір (область змагальних прикладів), ймовірно, зробить метод недоцільним, і більш важливе збереження цих властивостей під час спуску градієнта, ймовірно, зробить метод непрактичним. Але загалом це дуже важко, але не неможливо, і може вимагати проведення деяких досліджень у цьому напрямку. У аналогічній ситуації були результати для властивості обмеженої ізометрії для детермінованих матриць у стисненому зондуванні .

— дзеркало2 зображення
джерело