Розв’язування рівняння Гамільтона-Якобі-Беллмана; необхідні та достатні для оптимальності?


13

Розглянемо наступне диференціальне рівняння де - стан, а - змінна. Рішення задається через де заданий початковий стан.

x˙(t)=f(x(t),u(t))
xu
x(t)=x0+0tf(x(s),u(s))ds.
x0:=x(0)

Тепер розглянемо наступну програму де \ rho> 0 позначає перевагу в часі, V (\ cdot) - значення, а F (\ cdot) об'єктивна функція. Класичним економічним застосуванням є модель оптимального зростання Ramsey-Cass-Koopmans. Рівняння Гамільтона-Якобі-Беллмана задається через \ begin {align} \ rho V (x) = \ max_u [F (x, u) + V '(x) f (x, u)], \ quad \ forall t \ in [0, \ infty). \ end {align}

V(x0):=maxu0eρtF(x(t),u(t))dts.t. x˙(t)=f(x(t),u(t))x(0)=x0
V ( ) F ( ) ρ V ( x ) = max u [ F ( x , u ) + V ( x ) f ( x , u ) ] ,ρ>0V()F()
ρV(x)=maxu[F(x,u)+V(x)f(x,u)],t[0,).

Скажімо , я вирішував HJB для V . Оптимальне керування потім задається через

u=argmaxu[F(x,u)+V(x)f(x,u)].
Я отримаю оптимальні траєкторії стану і управління {(x(t),u(t)):t[0,)} .

У статті вікі йдеться

... але коли вирішується на всьому просторі стану, рівняння HJB є необхідною і достатньою умовою для оптимуму.

У Bertsekas (2005) Динамічне програмування та оптимальне керування , т. 1, 3-е видання, у пропозиції 3.2.1, він стверджує, що розв’язання для V є оптимальною функцією затрат на рух, а пов'язане з ним u є оптимальним. Однак він прямо заявляє це як теорему достатності.

Насправді, я просто хочу переконатися, що якщо я вирішую HJB і відновляю пов'язані траєкторії стану та керування, мені не доведеться турбуватися про додаткові умови оптимальності.

Рішення

Я намагаюся

Я думаю, що мені вдалося вивести необхідні умови з максимального принципу самим рівнянням HJB.

Визначте гамільтонів start

H(x,u,V(x)):=F(x,u)+V(x)f(x,u)

тоді ми маємо

ρV(x)=maxuH(x,u,V(x))

що

ρV(x)=H(x,u,V(x)).

Визначте довільну функцію з . Тепер виправте q ( 0 ) = lim t q ( t ) = 0 x = x + ε qq:[0,)Rq(0)=limtq(t)=0

x=x+εq

де - параметр. Підключіть термін до максимізованого гамільтоніана, який дає ρ V ( x + ε q ) = H ( x + ε q , u , V ( x + ε q ) ) .εR

ρV(x+εq)=H(x+εq,u,V(x+εq)).

При маємо оптимальне рішення. Таким чином, різниться над щоб отримати умову першого порядку ε=0ε

ρVq=Hxq+HVVq.

Тепер визначте суміжну змінну за допомогою

λ=V(x).

Диференціюйте з часом

λ˙=Vx˙.

і зауважте, що

HV=f(x,u)=x˙.

Підключіть все те, що дає

ρλ=Hx+λ˙.

Ось це досить багато. Тож рішення HJB дійсно необхідне та достатнє (тут опущено) для оптимальності. Хтось повинен додати його у вікі. Ви можете заощадити час для людей, які задумуються над такими проблемами (я вважаю, що це не так багато).

Однак умова поперечності відсутня.

limteρtλ(t)=0

II Спроба

Визначте функціонал виплат

J(u):=0eρtF(x,u)dt

Зауважте, що за визначенням . Додайте нейтральний термін до функціональної виплати start

0eρtλ[f(x,u)x˙]dt=0
x˙=f(x,u)
J(u)=0eρt[F(x,u)+λf(x,u)]dt0eρtλx˙dt=0eρtH(x,u,λ)0eρtλx˙dt

Інтеграція за частинами потрібного доданку і виходу rhs

0eρtλx˙dt=[eρtλ(t)x(t)]00eρtx(λ˙ρλ)dt

Замініть цей термін

J(u)=0eρt[H(x,u,λ)+x(λ˙ρλ)]dtlimteρtλ(t)x(t)+λ(0)x(0)

Визначте

x=x+εqu=u+εp

що дає

J(ε)=0eρt[H(x+εq,u+εp,λ)+(x+εq)(λ˙ρλ)]dtlimteρtλ(t)[x(t)+εq(t)]+λ(0)x(0)

FOC для максимумуJε=0

Jε=0eρt[Hxq+Hup+q(λ˙ρλ)]dtlimteρtλ(t)q(t)=0

Оскільки і не обмежені, ми повинні мати qp

Hu=0Hx=ρλλ˙limteρtλ(t)=0

Ви ще визначили необхідні та достатні умови?
Jamzy

У якому економічному контексті це виникає?
Стен Шунпік


1
Я думаю, що ця тема краще підходить для math.stackexchange.com, оскільки вона насправді не пов'язана з econ. Мод може передати його.
незрозумілий

Я не впевнений, що тут задають питання: якщо на Берцекаса рішення HJB є достатнім , тоді вам не доведеться "турбуватися про додаткові умови оптимальності". "Достатній лише" проти "необхідних і достатніх" виникне у випадку, якщо HJB не буде вирішено - в такому випадку можна сказати "це не означає, що рішення немає". До речі, ваші Спроби I і II є цінним змістом тут: перший показує посилання між HJB та Optimal Control, другий показує, як можна вивести FOC з оптимального управління.
Алекос Пападопулос

Відповіді:


1

(Це, можливо, варто врахувати як коментар.)

Якщо ви вирішили рівняння HJB, достатньо отримати оптимальне рішення. Таким чином, вам не потрібно "турбуватися про будь-які інші умови оптимальності", які, на мою думку, відповідають на ваше запитання.

Здається, ви стурбовані "необхідною" складовою теореми. Сторона необхідності твердження полягає в наступному: якщо існує оптимальне рішення, повинно існувати рішення рівняння HJB.

Я не працював з цією конкретною проблемою, але загалом відповідь полягає в тому, що ми не очікуємо, що ми будемо мати диференційовану функцію V. Тому у нас немає рішення рівняння, як сказано. Натомість нам потрібно подивитися на узагальнені похідні та перетворити рівняння HJB у нерівність. У такому випадку ви можете отримати "розчин в'язкості". Якщо ми поширюємо на використання узагальнених похідних, можливо, можна довести, що таке рішення завжди існує. Поглянувши на ваші докази, вони не допоможуть у необхідних умовах, оскільки ви припускаєте, що відрізняється.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.