Чому SQP кращий за доповнений Lagrangian для нелінійного програмування?

У технічному звіті про Галахад [1] автори констатують, в контексті загальних нелінійних проблем програмування:

На нашу думку, ніколи насправді не було багато сумнівів у тому, що методи SQP [послідовного квадратичного програмування] будуть успішнішими [ніж методи Доповненого Лагрангія] в довгостроковій перспективі ...

Що може бути основою для цієї віри? Тобто, чи є якісь теоретичні результати, які дозволяють припустити, що методи SQP повинні бути швидшими / надійнішими, ніж методи посиленого Лагрангія?

[1] Галахад, бібліотека безпечних для потоків пакетів Fortran 90 для масштабної нелінійної оптимізації, Гулд, Орбан та Тойнт

nonlinear-programming

— cjordan1
джерело

Методи SQP вимагають, щоб мета була вдвічі диференційована (див. Https://en.m.wikipedia.org/wiki/Sequential_quadratic_programming ), тоді як доповнені лагрангіанці працюють навіть тоді, коли ціль є недиференційованою (отже, їх недавнє відродження у спільноті обробки зображень cf ftp: //arachne.math.ucla.edu/pub/camreport/cam09-05.pdf )

Я не знаю про програмне забезпечення galahad, але якщо передбачається вирішити проблеми диференційованої оптимізації, це, ймовірно, зробить набагато краще, використовуючи метод, дозволений для диференціації цільової функції.

— дранксо
джерело

Неправда, що SQP вимагає вдвічі диференційованих цільових функцій. Ви можете просто отримати метод, який має меншу швидкість конвергенції, якщо об'єктивна функція має меншу диференційованість, але це точно так само, як і при розширених методах Лагрангія.

— Вольфганг Бангерт

Що стосується зовнішніх ітерацій, SQP повинен вигравати, оскільки він включає другу похідну інформацію, тоді як розширені лагрангіальні методи, такі як ADMM, не мають.

Однак слід пам’ятати, що кожна ітерація цих методів включає вирішення лінійної системи, тому для справедливого порівняння ви повинні врахувати, наскільки легко ці системи вирішити.

Для розширених лагрангових (змінних) методів кожна ітерація ви вирішуєте щось на зразок, де - оператор прямого напряму від об'єктивної функції, яка відома і зазвичай легше мати справу з або передумова, і - параметр штрафу. (наприклад, ваша проблема є урахуванням деяких регуляризацій та обмежень).

(A^{T} A + ρ I) x = b,

$(A^TA + \rho I)x = b,$

A

$A$

ρ

$\rho$

min_{x} | | A x - b | |^{2}

$\min_x ||Ax-b||^2$

Для методів SQP ви вирішуєте щось на зразок де - гессіан (або його наближення), який, як правило, доступний лише неявно з точки зору його дії на вектори, а - градієнт. Гессіан містить не просто , а й комбінацію інших матриць і зворотних матриць, що випливають з лінеаризації обмежень та регуляризації.

H x = g,

$Hx = g,$

H

$H$

g

$g$

A

$A$

Попередня підготовка гессіанців є досить складним бізнесом і набагато менш вивчена, ніж попередня підготовка проблем уперед. Стандартним методом є наближення інверсії Гессі до L-BFGS, але це має обмежену ефективність, коли інверсія Гессея є високою. Іншим популярним методом є наближення гессіана до суми матриці низького рангу плюс матриця, що легко перетворюється, але це також має обмежену ефективність для важких проблем. Інші популярні методи оцінювання Гессі засновані на розріджених наближеннях, але проблеми з континуумом часто мають гессіанці, які мають слабкі розрізнені наближення.

— Нік Алгер
джерело

+1, хоча я хотів би застерегти проти простих тверджень (під якими я не маю на увазі конкретно цю відповідь). Наприклад, в оптимізації, обмеженої PDE, застосування часто включає вирішення нелінійного PDE, тоді як може бути застосовано шляхом вирішення двох лінійних PDE - що може бути значно дешевшим (і простішим в умові), якщо початковий PDE неприємний.

A

$A$

H

$H$

— Крістіан Класон

Отже, можна застосувати, вирішивши два PDE, але для застосування вам потрібно вирішити 2 PDE за ітерацію кріолв у вашому розв'язувачі. З іншого боку, є оператором прямого переходу, тому зазвичай взагалі не передбачає жодних PDE-рішень. Як правило, матриця фактично знає явно, наприклад, 5-кратний трафарет з кінцевою різницею на сітці. Предобработчікі для може бути використаний для побудови предобуславлівателей для , але важче використовувати їх передумови .

H

$H$

H^{- 1}

$H^{-1}$

A

$A$

A

$A$

A

$A$

A^{T} A + ρ I

$A^TA + \rho I$

H

$H$

— Нік Алгер

Якщо - лінійний оператор прямого переходу (що не стосується нелінійної оптимізації, обмеженої PDE), то ви, звичайно, правильні. В іншому випадку застосування вимагає лінійного вирішення PDE за ітерацію Ньютона (або ітерації з фіксованою точкою) з наступним іншим для (що завжди лінійно). Який із двох методів вимагає меншої сумарної роботи (скажімо, за кількістю лінійних рішень PDE) дуже залежить від конкретної проблеми. Я все говорю про різні інструменти для різних робіт.

A

$A$

A

$A$

A^{T}

$A^T$

— Крістіан Класон

Я згоден щодо різних інструментів для різних робочих місць. Я маю на увазі проблему оптимізації з обмеженою оптимізацією PDE Гаусса-Ньютона для - такий, що - , а повний гессіан це плюс інші терміни. Отже, містить дві обертання, а містить два обертання в межах зворотного.

min_{q, u} \frac{1}{2} | | C u - y | |^{2} + \frac{α}{2} | | R q | |^{2}

$\min_{q,u} \frac{1}{2}||Cu - y||^2 + \frac{\alpha}{2}||Rq||^2$

A u = q

$Au=q$

H = A^{- T} C^{T} C A^{- 1} + α R^{T} R

$H = A^{-T}C^TCA^{-1} + \alpha R^T R$

H

$H$

H^{- 1}

$H^{-1}$

— Нік Алгер

І я мав на увазі обмеження (наприклад, відображає на рішення з , яке з'являється в ідентифікації параметрів або оптимізації топології).

S (q) = u

$S(q) = u$

S

$S$

q

$q$

u

$u$

- \nabla \cdot (q \nabla u) = f

$-\nabla\cdot(q\nabla u) = f$

— Крістіан Класон