Чому в нейронних мережах застосовують градієнтні методи, а не інші метагевристики?

20

При навчанні глибоких і неглибоких нейронних мереж, чому градієнтні методи (наприклад, спуск градієнта, Нестеров, Ньютон-Рафсон), зазвичай використовуються, на відміну від інших метагевристів?

Під метагевристикою я маю на увазі такі методи, як імітація відпалу, оптимізація колоній мурашок тощо, які були розроблені, щоб уникнути застрявання в локальних мінімумах.

— Ліор
джерело

1

FYI Чи можливо тренувати нейронну мережу без зворотного розповсюдження?

— Франк Дернонкур

13

Розширення відповіді @Dikran Marsupial ....

Анна Чороманська та її колеги з групи Яна Лекунна в Нью-Йорку розповідають про це у своєму документі AISTATS 2014 року "Поверхня втрат багатошарових сіток" . Використовуючи теорію випадкових матриць разом із деякими експериментами, вони стверджують, що:

Для мереж великих розмірів більшість локальних мінімумів еквівалентні та дають аналогічні показники на тестовому наборі.

Ймовірність знайти локальний мінімум "поганого" (високого значення) не є нульовим для малорозмірних мереж і швидко зменшується з розміром мереж.

Боротьба знайти глобальний мінімум на навчальному наборі (на відміну від одного з багатьох хороших місцевих) на практиці не корисна і може призвести до надмірної підготовки.

[З 2 сторінки статті]

На цей погляд, не існує вагомих причин застосовувати важкі підходи для пошуку світового мінімуму. Цей час краще витратити на випробування нових мережевих топологій, функцій, наборів даних тощо.

Однак, багато людей задумалися над збільшенням або заміною SGD. Для досить невеликих мереж (за сучасними мірками) ці вдосконалені метаугістики, здається, щось роблять. Мавровуніотис та Ян (2016) показують, що оптимізація колонії мурашок + backprop б'є немодифіковану задню частину на декількох наборах даних орієнтирів (хоча і не набагато). Рере ел. (2015) використовуйте імітований відпал для тренування CNN і виявите, що він спочатку краще працює на наборі перевірки. Після 10 епох, однак, залишається лише дуже невелика (і не перевірена на важливість) різниця у продуктивності. Більш швидка перевага конвергенції за епоху також компенсується значно більшим кількістю часу на обчислення за епоху, тому це не очевидний виграш для імітаційного відпалу.

Цілком можливо, що ці евристики роблять кращу роботу ініціалізації мережі, і як тільки вона буде спрямована в потрібний шлях, будь-який оптимізатор зробить. Суцкевер та ін. (2013) з групи Джеффа Гінтона аргументують щось подібне у своєму документі ICML за 2013 рік .

— Метт Краузе
джерело

17

Місцеві мінімуми насправді не є такою великою проблемою з нейронними мережами, як це часто пропонується. Деякі з локальних мінімумів обумовлені симетрією мережі (тобто ви можете перестановити приховані нейрони і залишити функціюмережі без змін. Все, що потрібно - це знайти хороші локальні мінімуми, а не глобальні мінімуми. Оскільки агресивна оптимізація дуже гнучкої моделі, такої як нейронна мережа, може бути рецептом переозброєння даних, тому використання, наприклад, імітованого відпалу для пошуку глобальних мінімумів критерію навчання, швидше за все, дасть нейронну мережу гіршою продуктивність узагальнення, ніж одна, навчена градієнтному спуску, що опиняється в локальних мінімумах. Якщо використовуються ці евристичні методи оптимізації, я б радив включити термін регуляризації для обмеження складності моделі.

... або альтернативно використовувати, наприклад, метод ядра або радіальну базову функціональну модель, що, ймовірно, буде меншою проблемою.

— Дікран Марсупіал
джерело