Перші два алгоритми, які ви згадуєте (Nelder-Mead та Simulated Annealing), як правило, вважаються значно застарілими в колах оптимізації, оскільки є набагато кращі альтернативи, які є і більш надійними, і менш затратними. Генетичні алгоритми охоплюють широкий діапазон, і деякі з них можуть бути розумними.
Однак у більш широкому класі алгоритмів оптимізації без похідних (DFO) існує багато таких, які значно кращі, ніж ці "класики", оскільки це було активною зоною досліджень в останні десятиліття. Тож, чи можуть деякі з цих нових підходів бути розумними для глибокого навчання?
Відносно недавній документ, який порівнює сучасний стан, полягає в наступному:
Rios, LM, & Sahinidis, NV (2013) Оптимізація без похідних: огляд алгоритмів та порівняння програмних реалізацій. Журнал глобальної оптимізації.
Це приємний документ, який містить багато цікавих поглядів на останні методи. Наприклад, результати наочно показують, що найкращі локальні оптимізатори - це "засновані на моделі", використовуючи різні форми послідовного квадратичного програмування (SQP).
Однак, як зазначається у їхньому рефераті, "Ми виявляємо, що здатність усіх цих вирішувачів отримувати хороші рішення зменшується зі збільшенням розміру проблеми". Щоб дати уявлення про числа, для всіх проблем вирішувачам було надано бюджет в 2500 оцінок функцій, а розміри задач мали максимум ~ 300 параметрів для оптимізації. Крім параметрів O [10], дуже мало таких оптимізаторів спрацювало дуже добре, навіть навіть найкращі показали помітне зниження продуктивності, оскільки розмір проблеми збільшувався.
Отже, для задач з великими розмірами алгоритми DFO просто не є конкурентними з похідними. Для надання певної перспективи оптимізація на основі PDE (часткове диференціальне рівняння) - це ще одна область з дуже високими розмірними проблемами (наприклад, кілька параметрів для кожної комірки великої 3D-мережі з кінцевими елементами). У цій царині " суміжний метод " є одним із найбільш використовуваних методів. Це також оптимізатор нахилу градієнта, заснований на автоматичній диференціації коду моделі вперед.
Найближчим до оптимізатора великого розміру DFO є, можливо, фільтр Ensemble Kalman , який використовується для засвоєння даних у складних моделюваннях PDE, наприклад, погодних моделей. Цікаво, що це, по суті, підхід SQP, але з байєсово-гауссовою інтерпретацією (тому квадратична модель є позитивно визначеною, тобто немає сідлових точок). Але я не думаю, що кількість параметрів або спостережень у цих додатках порівнянна з тією, що спостерігається при глибокому навчанні.
Побічна примітка (локальні мінімуми): З того, що я прочитав про глибоке вивчення, я вважаю, що консенсус полягає в тому, що саме точки сідла, а не локальні мінімуми, найбільш проблемні для просторів з високими розмірами NN-параметрів.
Наприклад, нещодавній огляд у "Природі" говорить: "Останні теоретичні та емпіричні результати наполегливо говорять про те, що локальні мінімуми взагалі не є серйозною проблемою. Натомість ландшафт переповнений комбінаторно великою кількістю точок сідла, де градієнт дорівнює нулю, і поверхневі криві в більшості розмірів, а інші - в іншому ".
Пов’язана стурбованість щодо локальної та глобальної оптимізації (наприклад, це питання, зазначене в коментарях). Хоча я не займаюся глибоким навчанням, на моєму досвіді переозброєння, безумовно, є важливою проблемою. На мою думку, методи глобальної оптимізації найбільше підходять для проблем інженерного проектування , які сильно не залежать від "природних" даних. У завданнях асиміляції даних, будь-які поточні глобальні мінімуми легко можуть змінитися при додаванні нових даних (застереження: Мій досвід буде зосереджений в задачах геонаучних, де дані зазвичай «розріджений» по відношенню до моделі ємності).
Мабуть, цікавий погляд
О. Bousquet & L. Bottou (2008) Компроміс широкомасштабного навчання. NIPS.
який дає напівтеоретичні аргументи щодо того, чому та коли приблизна оптимізація може бути кращою на практиці.
Заключна примітка (метаоптимізація): Хоча методи, засновані на градієнті, здаються домінуючими для навчальних мереж, може існувати роль DFO у пов'язаних із ними завданнях метаоптимізації.
Одним із прикладів може бути налаштування гіперпараметрів. (Цікаво, що успішні оптимізатори DFO на основі моделей від Rios & Sahinidis можна розглядати як по суті вирішення послідовності проблем проектування-експериментів / відповіді-поверхні .)
Іншим прикладом може бути проектування архітектури з точки зору налаштування шарів (наприклад, кількості, типу, послідовності, вузлів / шару). У цьому контексті дискретної оптимізації алгоритми генетичного стилю можуть бути більш доречними. Зауважте, що тут я маю на увазі випадок, коли зв’язність неявно визначається цими факторами (наприклад, повністю пов'язані шари, згорткові шари тощо). Іншими словами, зв'язок є метаоптимізованою явно. (Міцність зв’язку впаде під час тренувань, де, наприклад, обмеженість може бути підвищена регуляризацією та / або активацією ReLU ... ці варіанти можуть бути мета-оптимізовані.)O[N2]notL1