Я знаю, що ця тема досить стара, і інші зробили велику роботу, щоб пояснити такі поняття, як місцеві мінімуми, оснащення тощо. Однак, коли ОП шукала альтернативне рішення, я спробую зробити свій внесок і сподіваюся, що це надихне на більш цікаві ідеї.
Ідея полягає у заміні кожної ваги w на w + t, де t є випадковим числом, яке слідує за Гауссовим розподілом. Кінцевим виходом мережі є середній вихід після всіх можливих значень t. Це можна зробити аналітично. Потім можна оптимізувати проблему або за допомогою спуску градієнта, або LMA, або інших методів оптимізації. Після оптимізації у вас є два варіанти. Один із варіантів - зменшити сигму в гауссовій дистрибуції і робити оптимізацію знову і знову, поки сигма не досягне 0, тоді у вас буде кращий локальний мінімум (але, можливо, це може спричинити надмірне розміщення). Інший варіант - продовжувати використовувати той, який має випадкове число у вазі, він, як правило, має кращу властивість узагальнення.
Перший підхід - оптимізаційний трюк (я називаю це конволюційним тунелюванням, оскільки він використовує згортку над параметрами для зміни цільової функції), він згладжує поверхню ландшафту витрат і позбавляється від деяких локальних мінімумів, таким чином полегшити пошук глобального мінімуму (або краще місцевого мінімуму).
Другий підхід пов'язаний із вдуванням шуму (на вагах). Зауважте, що це робиться аналітично, тобто кінцевим результатом є одна єдина мережа, а не кілька мереж.
Далі наведено приклади виходів для задачі з двома спіралями. Архітектура мережі однакова для всіх трьох: існує лише один прихований шар з 30 вузлів, а вихідний шар лінійний. Використовуваний алгоритм оптимізації - LMA. Ліве зображення - для налаштування ванілі; середина використовує перший підхід (а саме багаторазове зменшення сигми до 0); третій - за допомогою сигми = 2.
Ви можете бачити, що ванільний розчин є найгіршим, згорткове тунелювання виконує кращу роботу, а введення шуму (при згортковому тунелюванні) найкраще (з точки зору властивості узагальнення).
Як згортання тунелів, так і аналітичний спосіб подачі шуму - мої оригінальні ідеї. Можливо, вони є альтернативою, яку хтось може зацікавити. Деталі можна знайти в моєму документі " Об'єднання нескінченності кількості нейронних мереж в одну" . Попередження: Я не є професійним письменником-академіком, і стаття не рецензується. Якщо у вас є питання щодо згаданих нами підходів, будь ласка, залиште коментар.