місцеві мінімуми проти сідлових точок у глибокому навчанні


18

Я чув, як Ендрю Нг (у відео, якого я, на жаль, більше не можу знайти) розповів про те, як розуміння місцевих мінімумів у проблемах глибокого навчання змінилося в тому сенсі, що вони зараз вважаються менш проблематичними, оскільки у просторах з великими розмірами (зустрічаються в глибоке навчання) критичні точки, швидше, будуть сідловими точками або плато, а не місцевими мінімумами.

Я бачив документи (наприклад, цей ), які обговорюють припущення, згідно з якими "кожен локальний мінімум - це глобальний мінімум". Ці припущення є досить технічними, але, наскільки я розумію, вони, як правило, нав'язують структуру нейронної мережі, що робить її дещо лінійною.

Чи справедливим є твердження, що при глибокому навчанні (включаючи нелінійні архітектури) плато є скоріше, ніж локальні мінімуми? І якщо так, то чи існує за цим (можливо, математична) інтуїція?

Чи є щось особливе щодо глибокого навчання та сідла?


12
Якщо мова йде про математичну інтуїцію, чому точка сідла швидше локального мінімуму, я б подумав про це з точки зору особливостей. Щоб бути локальним мінімумом, він повинен бути локальним мінімумом у кожному напрямку. Навпаки, для точки сідла лише 1 напрямок повинен відрізнятися від інших. Набагато ймовірніше, що 1 або більше мають різні поведінки, ніж інші, порівняно з однаковою поведінкою у всіх напрямках.
Павло

3
дякую, тепер, коли ви це скажете, це щось очевидно ... ось кілька цікавих обговорень теми
oW_

4
Ендрю Нг виклав відео на тему "Проблема локальних мінімумів" на 2-му тижні курсу курсу "Курс", "Вдосконалення глибоких нейронних мереж: налаштування гіперпараметрів, регуляризація та оптимізація". Можливо, саме той, кого ви шукаєте.
mjul

дивіться тут
Медіа

Відповіді:


7

Це просто намагається передати мою інтуїцію, тобто ніякої жорсткості. Річ із сідловими моментами полягає в тому, що вони є типом оптимуму, який поєднує комбінацію мінімумів і максимумів. Оскільки кількість вимірів настільки велика при глибокому навчанні, ймовірність того, що оптимум складається лише з комбінації мінімумів, дуже низька. Це означає, що «застрягнути» в місцевому мінімумі рідко. Загрожуючи надмірним спрощенням, важче "застрягнути" у точці сідла, оскільки можна "ковзати вниз по одному з вимірів". Я думаю, що відео, про яке ви посилаєтесь, про Ендрю Нґ, походить з курсу Coursera, присвяченого глибокому навчанню.


13

Дозвольте дати пояснення на основі багатовимірного обчислення. Якщо ви пройшли багатоваріантний курс, ви почули, що, враховуючи критичну точку (точка, де градієнт дорівнює нулю), умова для цієї критичної точки є мінімальним - матриця Гессія є позитивно визначеною. Оскільки гессіан є симетричною матрицею, ми можемо діагоналізувати її. Якщо записати діагональну матрицю, відповідну Гессі, як: що гессіанський позитивний певний еквівалентd1>0,...,dn>0.

D=[d1dn]
г1>0,,гн>0

Тепер давайте подумаємо про функції глибокого навчання. Функції глибокого навчання в дуже складних формах залежать від безлічі параметрів, тому у гессіана буде складний сам вираз. З цієї причини можна думати, що значення не є упередженими до негативних чи позитивних значень. З цієї причини, з огляду на будь-яку критичну точку, вірогідність того, що кожне значення d i буде позитивним, можна вважати рівним 1 /г1,,гнгi1/2гiгjчерез високу нелінійність матриці Гессі, тому вірогідність того, що вони будуть позитивними, ми сприймемо як самостійні події.

П(г1>0,,гн>0)=П(г1>0)П(гн>0)=12н

1081/2н

А як щодо максимумів?

1/2н

P(saddle)=1P(maximum)P(minimum)=112n12n=112n1

n

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.