Чи добре відомо, що деякі проблеми оптимізації еквівалентні тимчасовим крокам?


19

Враховуючи потрібний стан та параметр регуляризації , розглянемо задачу пошуку стану та елемента керування u, щоб мінімізувати функціонал \ begin {рівняння} \ frac {1} {2} \ | y - y_0 \ | ^ 2 + \ frac {\ beta} {2} \ | u \ | ^ 2 \ end {рівняння} з обмеженням \ begin {рівняння} Ay = u. \ end {рівняння} де для простоти можна думати y, y_0, u \ in \ mathbb R ^ n та A \ in \ mathbb R ^ {n \ times n} .y0βRyu

12yy02+β2u2
Ay=u.
y,y0,uRnARn×n

Формуючи Лагрангіана, шукаючи стаціонарні точки та усуваючи керування u отримуємо умови першого порядку

ATλ=y0yAy=1βλ
Помноживши на A у першому рівнянні та AT у другому, ми можемо записати нормальні рівняння
(I+βAAT)λ=βAy0(I+βATA)y=y0
Ми можемо інтерпретувати їх як одиничні кроки зворотних наближень Ейлера до диференціальних рівнянь
λb=AATλ+Ay0,λ(0)=0yb=ATAy,y(0)=y0
за допомогою pseudotimestep β .

Моє запитання: Чи відомий цей зв'язок? Чи обговорюється це в стандартних методах лікування або оптимізації часу? (Мені здається, це забезпечує якийсь інтуїтивний зв'язок між ними.)

Ідея здається досить простою, що її треба добре знати, але ні пошук літератури, ні розмова з людьми не дали мені хорошого джерела, де це обговорюється. Найближче, що я знайшов, - це праця О. Шерцера та Дж. Вайхерта (J. Math Imaging Vision 12 (2000), с. 43-63), де йдеться про зв'язок у першому реченні реферату (!), Але не надавати будь-які посилання або досліджувати з'єднання в будь-якій глибині.

В ідеалі я шукаю посилання, яке не тільки констатує з'єднання, але й досліджує деякі наслідки (наприклад, можна уявити, що обумовлює проблему оптимізації дешевим кроком Ейлера вперед).


1
Загалом (і, як ви, напевно, вже знаєте), псевдо-часові крокові підходи - це добре відомі методи розв’язання алгебраїчних рівнянь (наприклад, описана вами система KKT), подаючи проблему як пошук стійкого стану набору ОДЕ, де змінна часу - це справді псевдо-час. Однак мені не відомий якийсь конкретний зв'язок, що стосується конкретного екземпляра умов KKT до одного відсталого кроку Ейлера.
Джефф Оксберрі

Як сторону вам потрібно вирішити лише один з двох ODE, оскільки ви можете використовувати одну з необхідних умов першого порядку для обчислення, наприклад, від . λyλ
Крістіан Класон

Відповіді:


17

Як зазначав Джед Браун, зв'язок між спусками градієнта в нелінійній оптимізації та часовим кроком динамічних систем перекривається з деякою частотою (зрозуміло, оскільки це дуже задовольняє зв'язок з математичним розумом, оскільки він пов'язує два, здавалося б, різні поля). Однак це рідко виявляється корисним зв’язком, особливо в контексті, який ви описуєте.

У зворотних задачах, люди зацікавлені в рішенні (некоректних) операційного рівняння з не в діапазоні . (Ваша оптимальна проблема управління може розглядатися як один її примірник з і .) Деякі стратегії регуляризації (такі як Тихонов або Ландвебер) можна інтерпретувати як єдиний псевдо-час крок певного класу. Тоді ідея полягає у використанні інтерпретації параметра регуляризації як довжини кроку, щоб отримати деякі (адаптивні, апостеріорні) правила вибору параметра - основна проблема в зворотних задачах - і, можливо, зробити кілька кроків псевдо-часу для підходити до справжнього, нерегульованого рішення (подібно доy δ F F = A - 1 y δ = y 0F(u)=yδyδFF=A1yδ=y0числове продовження ). Це іноді називають постійною регуляризацією і зазвичай обговорюється в контексті методів встановлення рівня; див., наприклад, Розділ 6.1 Кальтенбахера, Шерцера, Нойбауера: Методи ітеративної регуляризації нелінійних проблемних проблем (de Gruyter, 2008).

Другий контекст, до якого ця ідея неодноразово - це нелінійна оптимізація: якщо ви подивитесь на крок спуску градієнта для , то ви можете інтерпретувати це як прямий крок Ейлера для динамічної системи Як зазначав Джед Браун, це, на перший погляд, дає лише не дуже дивне спостереження, що цей метод сходиться, за умови, що псевдо-часові кроки є досить малими. Цікава частина виникає, коли ви дивитесь на динамічну систему і запитуєте себе, які властивості має неперервне рішення так званого градієнтного потокуminxf(x)

xk+1=xkγkf(xk),
x˙(t)=f(x(t)),x(0)=x0.
γkx(t)має (або повинен мати) незалежний від схилу градієнт і чи може це не призвести до більш відповідних методів крокового (та, отже, оптимізації) методів, ніж стандартний Ейлер. Деякі приклади з моєї голови:
  1. Чи існує природний функціональний простір, в якому живе градієнтний потік? Якщо так, то ваш градієнтний крок повинен бути зроблений з того самого простору (тобто дискретизація повинна відповідати). Це призводить, наприклад, до обчислення Рис-представлення градієнта відносно різних внутрішніх продуктів (іноді їх називають градієнтами Соболєва ) і, на практиці, до попередньо обумовлених ітерацій, які зближуються набагато швидше.

  2. Можливо, має належати не до векторного простору, а до різноманітності (наприклад, симетричних позитивних певних матриць), або градієнтний потік повинен зберігати певну норму . У цьому випадку ви можете спробувати застосувати схеми, що зберігають структуру, що зберігають час (наприклад, із залученням відхилення відносно відповідної групи Lie або геометричного інтегратора).хxx

  3. Якщо не є диференційованим, а опуклим, крок Ейлера вперед відповідає методу субградієнтного спуску, який може бути дуже повільним через обмеження розміру кроку. З іншого боку, неявний крок Ейлера відповідає методу проксимальної точки , для якого не застосовуються такі обмеження (і, таким чином, стали дуже популярними в, наприклад, обробці зображень).f

  4. Аналогічно, такі методи можуть бути значно прискорені етапами екстраполяції. Одним із способів мотивації цього є спостереження за тим, що стандартні методи першого порядку страждають від необхідності робити багато маленьких кроків, близьких до мінімізаторів, оскільки напрямки градієнта "коливаються" (подумайте про стандартну ілюстрацію, чому сполучені градієнти випереджають найкрутіший спуск). Щоб виправити це, можна "заглушити" ітерацію, не розв'язуючи динамічну систему першого порядку, а затухаючу систему другого порядку : для відповідного вибору . При належній дискретизації це призводить до ітерації форми (відомої як метод важкої кулі Поляка ) форми

    a1x¨(t)+a2x˙(t)=f(x(t))
    a1,a2
    xk+1=xkγkf(xk)+αk(xkxk1)
    (з залежно від ). Подібні ідеї існують і для методів проксимальних точок, див., Наприклад, статтю http://arxiv.org/pdf/1403.3522.pdf Дірка Лоренца та Томаса Пока.a 1 , a 2γk,αka1,a2

(Додам, що, наскільки мені відомо, у більшості випадків інтерпретація як динамічна система не була суворо необхідною для виведення або доказування конвергенції алгоритму; можна стверджувати, що ідеї на кшталт "неявні проти явного" чи похідні Lie насправді є більш фундаментальними, ніж будь-які динамічні системи або методи спуску градієнта. Проте, ніколи не зашкодить мати іншу точку зору, щоб подивитися на проблему.)


EDIT: Я просто натрапив на відмінний приклад із другого контексту, де інтерпретація ODE використовується для виведення властивостей екстраградієнтного методу Нестерова та пропонування вдосконалень: http://arxiv.org/pdf/1503.01243.pdf (Зауважте, що це також приклад точки Джеда Брауна, в тому, що автори по суті повторно розкривають точку 4 вище, не маючи відомості про алгоритм Поляка.)

EDIT 2: І як вказівку, як далеко ви можете це взяти, див. Сторінку 5 http://arxiv.org/pdf/1509.03616v1.pdf .


Я приймаю цю відповідь, тому що другий абзац найбільш прямо відповідає на питання, яке я намагався задати, але мені також сподобалась відповідь Джеда Брауна.
Ендрю Т. Баркер

13

Поки я не бачив точної рецептури, яку ви записали тут, я продовжую бачити розмови, в яких люди "знову виявляють" зв'язок до інтеграції якоїсь перехідної системи, і продовжують записувати алгоритм, який алгебраїчно рівносильний до однієї форми або інший із існуючих градієнтних спусків або метод, схожий на ньютона, і не вдається цитувати когось іншого. Я думаю, що це не дуже корисно, тому що висновок в основному полягає в тому, що "доки ви робите досить малі кроки, метод врешті-решт зближується до локального мінімуму". Що ж, у 2014 році виповнюється 45-річчя праці Філіпа Вулфа, де показано, як це зробити принципово. Існує також хороша теорія отримання q-квадратичної або q-суперлінійної конвергенції з псевдотранзиторного продовження та пов'язаних з ними методів, таких як Левенберг-Маркард.

Якщо ви хочете екземпляр цього повторного розкриття, використовуючи формулу, що нагадує Ньютона, для розв’язання алгебраїчних рівнянь (тобто класичного псевдоперекладного продовження) від математика з більш ніж 600 документами (тому, можливо, він доведе, що вам здається цікавим), подивіться на " Метод динамічних систем »А. Г. Рамма [1].

Якщо інтуїція, здобута при розгляді перехідної системи, призвела до практичних алгоритмів, які були або швидшими, або надійнішими, я думаю, ми побачили б високо цитовані статті з цього питання. Я думаю, що не секрет, що Ноцедал і Райт мають понад 13000 цитат, а в книзі Рамма близько 80 (переважно самоцитування).

[1] Я можу порадити вам не повідомляти проф. Рамму про те, що його DSM є алгебраїчно-еквівалентним тому, що десятиліттями знаходиться в незліченній кількості інженерних пакетів, інакше ви можете кричати з кімнати. #gradstudentmemories


3
Можливо, буде цікавіше, щоб ти сказав йому, що зараз, Джеде!
Білл Барт

0

Якщо методи ODE можуть сприяти оптимізації, чи є дійсно простий приклад проблеми, щоб показати це?
Солом’яний чоловік: чи існує вирішувач ODE, який робить розумну роботу на або як пропонує Крістіан Класон для скажімо, функція Розенброка, в 2d або 10d? Якщо це нерозумно, чи хтось має кращу солом’яну людину? (Зауважте, "розумний", а не "конкурентоспроможний найсучаснішим оптимізаторам". Я думаю, що потрібні зменшення розмірів / толерантності кроків, а може бути і жорсткі рішення.)
x˙=f(x)
fx¨=βx˙αf(x)  
f

На практиці "занадто великі" кроки набагато проблематичніші, ніж "занадто малі" - коливання безладні.
Я б наївно подумав, що теорія управління може допомогти. Цифрові рецепти с. 915 описує
PI адаптивний ступінчастий контроль для ODE, але я не знаю, чи це використовується на практиці.


Схоже, ви ставите нове запитання як відповідь ... Питання, що стосуються дотику, повинні розміщуватися в окремих питаннях або коментарях до наданих відповідей.
Пол

@Paul, чи це взагалі має сенс? Якщо так, чи можете ви запропонувати назву нового питання?
денис

Я розгублений ... Я можу помилитися, але, схоже, ваша відповідь насправді не є питанням ОП. Що саме таке повідомлення, яке ви намагаєтеся передати, і як воно стосується початкового запитання?
Павло

@Paul, вибач, я не зрозуміла. Як я розумію, це запитання вимагає співвідношення між певною проблемою оптимізації та тимчасовими кроками, що вирішують ODE. Крістіан Класон вказує на прямий зв’язок між схилом градієнта та певним вирішувачем ODE (вперед-Ейлер). Я коментую, що таке проста тестова функція f (), яка показує розв'язувач ODE, що рухається до мінімуму f ()?
денис
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.