Розширення відповіді @Dikran Marsupial ....
Анна Чороманська та її колеги з групи Яна Лекунна в Нью-Йорку розповідають про це у своєму документі AISTATS 2014 року "Поверхня втрат багатошарових сіток" . Використовуючи теорію випадкових матриць разом із деякими експериментами, вони стверджують, що:
Для мереж великих розмірів більшість локальних мінімумів еквівалентні та дають аналогічні показники на тестовому наборі.
Ймовірність знайти локальний мінімум "поганого" (високого значення) не є нульовим для малорозмірних мереж і швидко зменшується з розміром мереж.
Боротьба знайти глобальний мінімум на навчальному наборі (на відміну від одного з багатьох хороших місцевих) на практиці не корисна і може призвести до надмірної підготовки.
[З 2 сторінки статті]
На цей погляд, не існує вагомих причин застосовувати важкі підходи для пошуку світового мінімуму. Цей час краще витратити на випробування нових мережевих топологій, функцій, наборів даних тощо.
Однак, багато людей задумалися над збільшенням або заміною SGD. Для досить невеликих мереж (за сучасними мірками) ці вдосконалені метаугістики, здається, щось роблять. Мавровуніотис та Ян (2016) показують, що оптимізація колонії мурашок + backprop б'є немодифіковану задню частину на декількох наборах даних орієнтирів (хоча і не набагато). Рере ел. (2015) використовуйте імітований відпал для тренування CNN і виявите, що він спочатку краще працює на наборі перевірки. Після 10 епох, однак, залишається лише дуже невелика (і не перевірена на важливість) різниця у продуктивності. Більш швидка перевага конвергенції за епоху також компенсується значно більшим кількістю часу на обчислення за епоху, тому це не очевидний виграш для імітаційного відпалу.
Цілком можливо, що ці евристики роблять кращу роботу ініціалізації мережі, і як тільки вона буде спрямована в потрібний шлях, будь-який оптимізатор зробить. Суцкевер та ін. (2013) з групи Джеффа Гінтона аргументують щось подібне у своєму документі ICML за 2013 рік .