Як зазначав Джед Браун, зв'язок між спусками градієнта в нелінійній оптимізації та часовим кроком динамічних систем перекривається з деякою частотою (зрозуміло, оскільки це дуже задовольняє зв'язок з математичним розумом, оскільки він пов'язує два, здавалося б, різні поля). Однак це рідко виявляється корисним зв’язком, особливо в контексті, який ви описуєте.
У зворотних задачах, люди зацікавлені в рішенні (некоректних) операційного рівняння з не в діапазоні . (Ваша оптимальна проблема управління може розглядатися як один її примірник з і .) Деякі стратегії регуляризації (такі як Тихонов або Ландвебер) можна інтерпретувати як єдиний псевдо-час крок певного класу. Тоді ідея полягає у використанні інтерпретації параметра регуляризації як довжини кроку, щоб отримати деякі (адаптивні, апостеріорні) правила вибору параметра - основна проблема в зворотних задачах - і, можливо, зробити кілька кроків псевдо-часу для підходити до справжнього, нерегульованого рішення (подібно доy δ F F = A - 1 y δ = y 0F(u)=yδyδFF=A−1yδ=y0числове продовження ). Це іноді називають постійною регуляризацією і зазвичай обговорюється в контексті методів встановлення рівня; див., наприклад, Розділ 6.1 Кальтенбахера, Шерцера, Нойбауера: Методи ітеративної регуляризації нелінійних проблемних проблем (de Gruyter, 2008).
Другий контекст, до якого ця ідея неодноразово - це нелінійна оптимізація: якщо ви подивитесь на крок спуску градієнта для ,
то ви можете інтерпретувати це як прямий крок Ейлера для динамічної системи
Як зазначав Джед Браун, це, на перший погляд, дає лише не дуже дивне спостереження, що цей метод сходиться, за умови, що псевдо-часові кроки є досить малими. Цікава частина виникає, коли ви дивитесь на динамічну систему і запитуєте себе, які властивості має неперервне рішення так званого градієнтного потокуminxf(x)
xk+1=xk−γk∇f(xk),
x˙(t)=−∇f(x(t)),x(0)=x0.
γkx(t)має (або повинен мати) незалежний від схилу градієнт і чи може це не призвести до більш відповідних методів крокового (та, отже, оптимізації) методів, ніж стандартний Ейлер. Деякі приклади з моєї голови:
Чи існує природний функціональний простір, в якому живе градієнтний потік? Якщо так, то ваш градієнтний крок повинен бути зроблений з того самого простору (тобто дискретизація повинна відповідати). Це призводить, наприклад, до обчислення Рис-представлення градієнта відносно різних внутрішніх продуктів (іноді їх називають градієнтами Соболєва ) і, на практиці, до попередньо обумовлених ітерацій, які зближуються набагато швидше.
Можливо, має належати не до векторного простору, а до різноманітності (наприклад, симетричних позитивних певних матриць), або градієнтний потік повинен зберігати певну норму . У цьому випадку ви можете спробувати застосувати схеми, що зберігають структуру, що зберігають час (наприклад, із залученням відхилення відносно відповідної групи Lie або геометричного інтегратора).хxx
Якщо не є диференційованим, а опуклим, крок Ейлера вперед відповідає методу субградієнтного спуску, який може бути дуже повільним через обмеження розміру кроку. З іншого боку, неявний крок Ейлера відповідає методу проксимальної точки , для якого не застосовуються такі обмеження (і, таким чином, стали дуже популярними в, наприклад, обробці зображень).f
Аналогічно, такі методи можуть бути значно прискорені етапами екстраполяції. Одним із способів мотивації цього є спостереження за тим, що стандартні методи першого порядку страждають від необхідності робити багато маленьких кроків, близьких до мінімізаторів, оскільки напрямки градієнта "коливаються" (подумайте про стандартну ілюстрацію, чому сполучені градієнти випереджають найкрутіший спуск). Щоб виправити це, можна "заглушити" ітерацію, не розв'язуючи динамічну систему першого порядку, а затухаючу систему другого порядку :
для відповідного вибору . При належній дискретизації це призводить до ітерації форми (відомої як метод важкої кулі Поляка ) форми
a1x¨(t)+a2x˙(t)=−∇f(x(t))
a1,a2xk+1=xk−γk∇f(xk)+αk(xk−xk−1)
(з залежно від ). Подібні ідеї існують і для методів проксимальних точок, див., Наприклад, статтю http://arxiv.org/pdf/1403.3522.pdf Дірка Лоренца та Томаса Пока.a 1 , a 2γk,αka1,a2
(Додам, що, наскільки мені відомо, у більшості випадків інтерпретація як динамічна система не була суворо необхідною для виведення або доказування конвергенції алгоритму; можна стверджувати, що ідеї на кшталт "неявні проти явного" чи похідні Lie насправді є більш фундаментальними, ніж будь-які динамічні системи або методи спуску градієнта. Проте, ніколи не зашкодить мати іншу точку зору, щоб подивитися на проблему.)
EDIT: Я просто натрапив на відмінний приклад із другого контексту, де інтерпретація ODE використовується для виведення властивостей екстраградієнтного методу Нестерова та пропонування вдосконалень:
http://arxiv.org/pdf/1503.01243.pdf
(Зауважте, що це також приклад точки Джеда Брауна, в тому, що автори по суті повторно розкривають точку 4 вище, не маючи відомості про алгоритм Поляка.)
EDIT 2: І як вказівку, як далеко ви можете це взяти, див. Сторінку 5 http://arxiv.org/pdf/1509.03616v1.pdf .