Ініціалізуючи ваги з'єднання у нейромережі, що подається, важливо ініціалізувати їх випадковим чином, щоб уникнути будь-яких симетрій, які алгоритм навчання не зміг би розірвати.
Рекомендація, яку я бачив у різних місцях (наприклад, у підручнику MNIST TensorFlow ), - це використовувати усічений нормальний розподіл, використовуючи стандартне відхилення , де - кількість входів до заданий шар нейрона. N
Я вважаю, що стандартна формула відхилення гарантує, що зворотно розмножені градієнти не розчиняються або не посилюються занадто швидко. Але я не знаю, чому ми використовуємо усічений нормальний розподіл на відміну від звичайного нормального розподілу. Чи варто уникати рідкісних чужих ваг?