Розуміння "майже весь локальний мінімум має дуже подібне значення функції до глобального оптимуму"


46

У недавньому дописі блогу Ронге Ге сказано, що:

Вважається, що для багатьох проблем, включаючи вивчення глибоких мереж, майже всі локальні мінімуми мають дуже схоже значення функції з глобальним оптимумом, а значить, знайти локальний мінімум досить добре.

Звідки походить ця віра?


15
Я буду здивований, якщо це не емпірична знахідка.
usεr11852 повідомляє Відновити Моніку

Відповіді:


69

Нещодавній документ «Поверхні втрат багатошарових мереж» пропонує деякі можливі пояснення цьому. З їх конспекту (жирним шрифтом):

"Ми гадаємо, що і імітація відпалу, і SGD сходяться в діапазоні низьких критичних точок, і що всі критичні точки, які знайдені там, є локальними мінімумами високої якості, виміряними похибкою тесту. Це підкреслює велику різницю між великими і малими мережами де для останніх низькоякісні локальні мінімуми мають ненульову ймовірність відновлення. Нарешті, ми доводимо, що відновити глобальний мінімум стає складніше, оскільки розмір мережі збільшується, і що це на практиці не має значення, оскільки глобальний мінімум часто призводить до перевиконання ".

Дуже багато впливових людей у ​​глибокому навчанні (Янн Лекун та Йошуа Бенджіо назвати декількох) та деякі дослідники, що виходять більше з математичного кута (Ронг Ге та інші співробітники Сандєєва Арори) обговорювали та досліджували ці ідеї.

У наведеному вище документі див. Малюнок 3, на якому показано явище смуги / концентрації локальних значень мінімумів, оскільки мережі мають більше прихованих одиниць. Обмеження / концентрація є деяким емпіричним доказом того, що для більш глибоких чи великих моделей локальні мінімуми є "досить хорошими", оскільки значення їх втрат приблизно однакові. І найголовніше, що вони мають втрати, які ближче до глобального мінімуму, оскільки модель стає складнішою (у цьому випадку ширшою, але на практиці глибшою).

Крім того, вони використовують модель прядильної склянки, яка, як вони навіть заявляють, є лише моделлю і не обов'язково вказує на справжню картину, щоб показати, що досягнення глобального мінімізатора з локальних мінімумів може зайняти експоненціально довгий час:

"Для того, щоб знайти подальший низько лежачий мінімум, ми повинні пройти через сідлову точку. Тому ми повинні піднятися хоча б до рівня, коли є однакова кількість сідлових точок, щоб мати гідний шанс знайти шлях, який, можливо, може пройти нас до іншого місцевого мінімуму. Цей процес займає експоненціально тривалий час, тому на практиці пошук глобального мінімуму неможливий ".

Дослідження Rong Ge зосереджено навколо прориву сідлових точок. Йошуа Бенджо та його співробітники поставили досить сміливу гіпотезу "Сідл-Пойнт":

Тут ми стверджуємо, виходячи з результатів статистичної фізики, теорії випадкових матриць, теорії нейронної мережі та емпіричних доказів, що більш глибока і глибока складність виникає внаслідок поширення точок сідла, а не локальних мінімумів, особливо у великих розмірних проблемах, що представляють практичний інтерес . Такі точки сідла оточені платоми з високою помилкою, які можуть різко уповільнити навчання та створити ілюзорне враження про існування місцевого мінімуму.

джерело тут: Ідентифікація та атака проблеми сідлових точок у високомірній невипуклій оптимізації.

В якійсь мірі вищевказані два підходи не зовсім однакові (гіпотеза точки Сіддла може поставити під сумнів, що насправді є місцевим мінімумом і що є лише погано обумовленою точкою сідла з дуже довгою областю плато?). Ідея гіпотези точки сідла полягає в тому, що можна розробити методи оптимізації для прориву сідлових точок, наприклад, Ньютона без сідла зі статті Бенджо, щоб потенційно прискорити конвергенцію і, можливо, навіть досягти глобального оптимуму. Перша стаття про багатошарову поверхню втрат насправді не стосується досягнення світового оптимуму і насправді вважає, що вона має деякі погані властивості. Цікаво, що обидві статті використовують ідеї зі статистичної фізики та моделей наскрізного скла.

Але вони схожі на те, що обидві статті вважають, що для досягнення глобального мінімізатора необхідно подолати оптимізаційну задачу сідлових точок. Перша стаття просто вважає, що місцеві мінімуми досить хороші.

Справедливо цікавитись, чи можуть методи імпульсу та інші нові алгоритми оптимізації, які можуть оцінити деякі властивості кривизни 2-го порядку, уникати сідлових точок. Відома анімація Алека Редфорд тут .

Щоб відповісти на ваше запитання: "звідки походить ця віра", я особисто вважаю, що це пов'язано з тим, що можна використовувати різні випадкові насіння для вивчення різної ваги, але відповідні сітки мають схожі кількісні показники. Наприклад, якщо ви встановите два різних випадкових насіння для ініціалізації ваги Glorot, ви, ймовірно, навчитесь різної ваги, але якщо ви тренуєтесь, використовуючи подібні методи оптимізації, мережі матимуть схожі показники. Одне поширене фольклорне вірування полягає в тому, що ландшафт оптимізації схожий на коробку з яйцями, ще одна хороша публікація в цьому блозі: Немає більше місцевих мінімумів? з аналогією яєчно-картонна коробка.

Редагувати: Мені просто хотілося зрозуміти, що аналогія коробки з яйцями не відповідає дійсності, інакше не буде необхідності в імпульсі чи інших більш досконалих методах оптимізації. Але відомо, що SGD працює не так добре, як SGD + Momentum або більш сучасні алгоритми оптимізації, можливо, через існування точок сідла.


14
+1 Вражаюча інформативна та авторитетна відповідь - лише у кількох легко зрозумілих параграфах відображаються ідеї та поточні напрямки у значному підполі.
whuber

Спасибі за вашу відповідь. Оскільки ви згадали про Ян Лекун, чи могли б ви вказати на нього конкретне посилання, яке обговорює ці чи подібні ідеї?
Джон Донн

2
Гей Джон: стаття про поверхню втрат багатошарових мереж, про яку я посилався у публікації, є співавтором Янна. Ще одна подібна стаття, яку написав Ян у співавторстві, - « Дослідження на високомірних ландшафтах» . Дві статті досить схожі, та, на яку я спочатку згадувалась, здається, більш популярною.
Інді АІ

Посилання "Більше немає місцевих мінімумів" мертве. Швидкий пошук Google не зміг знайти публікацію в блозі, на яку вона посилається. Чи повідомлення в блозі офлайн? Або просто переїхали?
ЛМБ
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.