Налаштування
Ми розглядаємо в налаштуваннях:
- Дискретні дії
- Дискретні стани
- Обмежені винагороди
- Стаціонарна політика
- Нескінченний обрій
V ∗ = max π V π ( s ) , ∀ s ∈ S V ∗ = V π ∗
π∗∈argmaxπVπ(s),∀s∈S(1)
V∗=maxπVπ(s),∀s∈S(2)
V∗=Vπ∗(3)
Питання
Як довести, що існує принаймні одна яка задовольняє (1) одночасно для всіх ? s ∈ Sπ∗s∈S
Структура доказу
Побудуйте оптимальне рівняння, яке буде використано як тимчасове сурогатне визначення функції оптимального значення, яке ми докажемо на кроці 2, що воно еквівалентне визначенню за допомогою рівняння (2).
V∗(s)=maxa∈A[R(s,a)+γ∑s′∈ST(s,a,s′)V∗(s′)](4)
Отримати еквівалентність визначення функції оптимального значення за допомогою рівняння (4) та через рівняння (2).
(Зазначимо, насправді нам потрібен лише напрямок необхідності у доказуванні, оскільки достатня кількість очевидна, оскільки ми побудували рівняння (4) з рівняння (2).)
Доведіть, що існує унікальне рішення рівняння (4).
На етапі 2 ми знаємо, що розчин, отриманий на етапі 3, також є рішенням рівняння (2), тому це оптимальна величина функції.
З функції оптимального значення ми можемо відновити оптимальну політику, вибравши дію максимізатора у рівнянні (4) для кожного стану.
Деталі кроків
1
Оскільки , у нас . І якщо є будь-який такий, що , ми можемо виберіть кращу політику шляхом максимізації над .V∗(s)=Vπ∗(s)=Ea[Qπ∗(s,a)]Vπ∗(s)≤maxa∈AQπ∗(s,a)s~Vπ∗≠maxa∈AQπ∗(s,a)Q∗(s,a)=Qπ∗(s,a)a
2
(=>)
Виконує етап 1.
(<=)
тобто якщо задовольняє , тоді .V~V~(s)=maxa∈A[R(s,a)+γ∑s′∈ST(s,a,s′)V~(s′)]V~(s)=V∗(s)=maxπVπ(s),∀s∈S
Визначте оптимального оператора Беллмана як
Отже, наша мета - довести, що якщо , то . Ми показуємо це, комбінуючи два результати, слідуючи за Путерманом [1]:
TV(s)=maxa∈A[R(s,a)+γ∑s′∈ST(s,a,s′)V(s′)](5)
V~=TV~V~=V∗
а) Якщо , то .V~≥TV~V~≥V∗
б) Якщо , то .˜ V ≤V∗V~≤TV~V~≤V∗
Доказ:
а)
Для будь-якого ,
Тут - правило рішення (профіль дії в певний час), - векторне представлення негайної винагороди індукований від і - матриця переходу, індукована з .π=(d1,d2,...)
V~≥TV~=maxd[Rd+γPdV~]≥Rd1+γPd1V~
dRddPdd
За індукції, для будь-якого ,
де являє собою -ступеневу матрицю переходу під .n
V~≥Rd1+∑i=1n−1γiPiπRdi+1+γnPnπV~
Pjπjπ
Оскільки
ми маємо
Отже, у нас є . І оскільки це справедливо для будь-якого , ми робимо висновок, що
b)
Vπ=Rd1+∑i=1∞γiPiπRdi+1
V~−Vπ≥γnPnπV~−∑i=n∞γiPiπRdi+1→0 as n→∞
V~≥VππV~≥maxπVπ=V∗
Випливає з кроку 1.
3
Оптимальний оператор Беллмана - це скорочення в нормі , пор. [2].L∞
Доказ: Для будь-яких ,
where in (*) ми використали той факт, що
s maxaf(a)-max a ′ g(a′)≤maxa[f(a)-g(a)]
|TV1(s)−TV2(s)|=∣∣∣∣maxa∈A[R(s,a)+γ∑s′∈ST(s,a,s′)V1(s′)]−maxa′∈A[R(s,a′)+γ∑s′∈ST(s,a′,s′)V(s′)]∣∣∣∣≤(∗)∣∣∣∣maxa∈A[γ∑s′∈ST(s,a,s′)(V1(s′)−V2(s′))]∣∣∣∣≤γ∥V1−V2∥∞
maxaf(a)−maxa′g(a′)≤maxa[f(a)−g(a)]
Таким чином, з теорема фіксованої точки Банаха випливає, що має унікальну фіксовану точку.T
Список літератури
[1] Путерман, Мартін Л. "Процеси прийняття рішень Маркова: Дискретне стохастичне динамічне програмування". (2016).
[2] А. Лазарик. http://researchers.lille.inria.fr/~lazaric/Webpage/MVA-RL_Course14_files/slides-lecture-02-handout.pdf