Розуміння вартості суміжного методу для обмеженої оптимізацією pde


11

Я намагаюся зрозуміти, як працює метод сумісної оптимізації для оптимізації з обмеженою PDE. Зокрема, я намагаюся зрозуміти, чому суміжний метод є більш ефективним для проблем, де кількість змінних конструкцій велика, але "кількість рівнянь невелика".

Що я розумію:

Розглянемо таку проблему оптимізації з обмеженою PDE:

хвβ Я(β,у(β))с.т.R(у(β))=0

де Я - (достатньо безперервна) об'єктивна функція змінних векторного дизайну β та вектор польових змінних невідомих у(β) які залежать від проектних змінних, а R(у) - залишкова форма PDE.

Зрозуміло, що ми можемо першими варіаціями I і R як

δЯ=Яβδβ+Яуδу

δR=Rβδβ+Rуδу=0

Вводячи вектор множників лагранжу λ , варіацію цільової функції можна записати як

δЯ=Яβδβ+Яуδу+λТ[Rβδβ+Rуδу]

Переставляючи умови, ми можемо написати:

δЯ=[Яβ+λТRβ]δβ+[Яу+λТRу]δу

Таким чином, якщо ми можемо вирішити для таке, щоIλ

Яу+λТRу=0 (суміжне рівняння)

Тоді градієнт оцінюється лише з точки зору змінних конструкцій .βδЯ=[Яβ+λТRβ]δββ

Таким чином, алгоритм оптимізації на основі суміжних даних перетвориться на наступні кроки:

  1. Дані поточні змінні дизайнуβ
  2. Розв’яжіть для змінних поля (від PDE)у
  3. Розв’яжіть для множників Лагранжа (з суміжного рівняння)λ
  4. Обчисли градієнтиЯβ
  5. Оновити змінні дизайнуβ

Моє запитання

Як цей суміжний «трюк» покращує вартість оптимізації за ітерацію у випадку, коли кількість змінних конструкції велика? Я чув, що вартість оцінки градієнта для суміжного методу "не залежить" від кількості змінних конструкцій. Але як саме це правда?

Я впевнений, що є щось дуже очевидне, що я якось оглядаю.


3
До речі, множник Лагранжа зазвичай додається до об'єктивного функціоналу, а не до варіації; таким чином . Якщо встановити похідну відносно до нуля, вийде суміжне рівняння, і вставляючи це (а рішення рівняння стану ) у похідну відносно дає градієнт. Якщо ви почнете зі слабкої формулювання PDE, все стане ще простішим: просто вставте множник Lagrange замість тестової функції. Ніякої потреби в сильній формі або частковій інтеграції ніде. u u R ( u , β ) = 0 βхву,βмаксλЯ(у,β)+λТR(у,β)ууR(у,β)=0β
Крістіан Класон

1
Найдорожчою частиною будь-якого моделювання є фаза вирішення. Використовуючи суміжний, ви отримуєте градієнт у двох рішеннях, набагато дешевших порівняно з кінцевими різницями, де вам потрібно принаймні n + 1, а n - кількість вільних параметрів у вашій моделі.
stali

Відповіді:


10

Як цей суміжний «трюк» покращує вартість оптимізації за ітерацію у випадку, коли кількість змінних конструкції велика?

Я думаю про вартість з точки зору лінійної алгебри. (Дивіться ці замітки Стівена Дж. Джонсона , які я вважаю більш інтуїтивними, ніж підхід множника Лагранжа). Підхід вперед спрямований на вирішення питань чутливості безпосередньо:

уβ=-(Rу)-1Rβ

що включає розв’язання лінійної системи для кожного параметра у векторі , а потім оцінкуβ

гЯгβ=Яβ+Яууβ,

де позначає загальну похідну, а означає часткову похідну.г

Суміжний підхід зазначає це

гЯгβ=Яβ-Яу(Rу)-1Rβ,

тому суміжна змінна (множник Лагранжа) може бути визначена черезλ

-Яу(Rу)-1=λТ,

що відповідає суміжному рівнянню

Яу+λТRу=0.

Таке перегрупування термінів вимагає лише одного лінійного рішення, а не лінійного рішення для кожного параметра, що робить суміжну оцінку дешевою для багатьох випадків параметрів.

Я чув, що вартість оцінки градієнта для суміжного методу "не залежить" від кількості змінних конструкцій. Але як саме це правда?

Це не зовсім незалежно; імовірно, вартість оцінювання та збільшуватиметься із кількістю параметрів. Однак лінійні розв'язки все одно будуть однакового розміру, доки розмір не зміниться. Припущення полягає в тому, що розв'язки набагато дорожчі, ніж оцінки функцій.( R /β ) u(Я/β)(R/β)у


8

Коротше кажучи, перевага полягає в тому, що для обчислення похідних зменшеної мети вам не потрібно знати похідну стосовно як окремий об'єкт, але лише ту його частину, яка призводить до варіацій .u ( β ) β I ( β , u ( β ) )Я(β,у(β))у(β)βЯ(β,у(β))

Дозвольте мені перейти до позначень, які мені трохи зручніше: ( є проектна змінна, - змінна стану, а - об'єктивна). Скажімо, досить приємно, щоб застосувати теорему неявної функції, тому рівняння має унікальне рішення яке постійно диференціюється щодо та похідної задається рішенням ( і є частковими похідними) .u y J e ( y , u ) e ( y , u ) = 0 y ( u ) u y ( u ) e y ( y ( u ) , u ) y ( u ) + e u ( y ( u ) , u )

хву,уJ(у,у)на темуе(у,у)=0
ууJе(у,у)е(у,у)=0у(у)уу'(у) eyeu
(1)еу(у(у),у)у'(у)+еу(у(у),у)=0
еуеу

Це означає, що ви можете визначити зменшену ціль , яка також диференціюється (якщо є). Один із способів характеризувати градієнт - це через похідні спрямованості (наприклад, обчислити всі часткові похідні стосовно основи проектного простору). Тут похідна спрямованість у напрямку задається правилом ланцюга як Якщо хороший, єдине складне для обчислення - для заданої . Це можна зробити, помноживши наJ ( у , у ) J ( U ) ч J ' ( у ; ч ) = J у ( у ( у ) , у ) , у ' ( у ) ч + J у ( у (j(у): =J(у(у),у)J(у,у)j(у)годJy(u)hh(1)hy(u)h [ y ( u ) h ] = e y ( y ( u ) , u ) - 1 [ e u ( y ( u ) , u ) год ]

(2)j'(у;год)=Jу(у(у),у),у'(у)год+Jу(у(у),у),год.
Jу'(у)годгод(1)годправоруч і рішення для (що дозволяє теорема неявної функції), тобто обчислення та підключення цього виразу до . У обмеженій PDE оптимізації це означає вирішення лінеаризованого PDE для кожного базового вектора проектного простору.у'(у)год
(3)[у'(у)год]=еу(у(у),у)-1[еу(у(у),у)год]
год(2) год

Однак якщо ми знайдемо оператора таким, що то це повинен бути бажаний градієнт. Дивлячись на , ми можемо записати (якщо є суміжним оператором), тому все, що нам потрібно для обчислення, є . Використовуючи це , це можна зробити за допомогою , тобто і встановлення У обмеженій PDE оптимізаціїj

j'(у;год)=j,годза всіх год,
(1)
Jу(у(у),у),у'(у)год=у'(у)Jу(у(у),у),год
у'(у)у'(у)jу(у(у),у)(АБ)=БА(3)
λ: =еу(у(у),у)-Jу(у(у),у)
j(у)=еу(у(у),у)λ+Jу(у(у),у).
Jу(у(у),у)зазвичай є деяким залишковим, і обчислення включає вирішення єдиного (лінійного) суміжного PDE, незалежного від розмірності проектного простору. (Насправді, це працює навіть для розподілених параметрів, тобто, якщо - функція в деякому нескінченномірному просторі Банаха, де перший підхід неможливий.)λу
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.