Чому завжди існує принаймні одна політика, яка краща або рівна всім іншим політикам?


15

Навчання зміцненню: вступ. Друге видання, у стадії розробки , Річард С. Саттон та Ендрю Г. Барто (с) 2012, стор 67-68.

Розв’язання навчального завдання з підкріпленням означає, приблизно, пошук політики, яка досягає великої винагороди за довгостроковий період. Для кінцевих MDP ми можемо точно визначити оптимальну політику наступним чином. Функції значення визначають часткове впорядкування по політиках. Політика визначається як краща або дорівнює політиці якщо її очікувана віддача більша або дорівнює для всіх держав. Іншими словами, тоді і лише тоді, коли , для всіх . Завжди існує принаймні одна політика, яка краща або рівна всім іншим правилам. Це оптимальна політика.πππππvπ(s)vπ(s)sS

Чому завжди існує принаймні одна політика, яка краща або рівна всім іншим політикам?


Дуже детальний доказ (що використовує теорему фіксованої точки Банаха) міститься в главі 6.2 «Процесів рішення Маркова» Путермана.
Тогс

Відповіді:


3

Тільки повз цитовану частину той самий абзац насправді говорить вам, що це за політика: саме та сама вживає найкращих дій у кожній державі. У МДП дії, які ми вживаємо в одній державі, не впливають на винагороду за дії, вжиті в інших, тому ми можемо просто максимізувати політику в різних країнах.


Хіба ця відповідь не зовсім помилкова? Як можна сказати, що оптимізація стану політики за державою призводить до оптимальної політики. Якщо я оптимізую за стан і це потребує мене S t + 1, а потім оптимізація при S t + 1 призводить до оптимального значення значення V t + 1, але існує інша політика, в якій S t веде субоптимально до S l і оптимальної значення значення S l вище, ніж V t + 1 . Як можна виключати це шляхом такого короткого аналізу?StSt+1St+1Vt+1StSlSlVt+1
MiloMinderbinder

@MiloMinderbinder Якщо оптимальною політикою в є вибір S t + 1 , то значення S t + 1 вище, ніж значення S l . StSt+1St+1Sl
Дон Реба

Моє ліжко. Друкар виправив: "Чи не ця відповідь є абсолютно неправильною? Як ви можете сказати, що оптимізація політики за державою призводить до оптимальної політики? Якщо я оптимізувати над державної , і він приймає мене до S т + 1 , а потім оптимізацію при S т + 1 призводить до значення оптимальна функція V т + 2 з S т + 2 , але є інша політика , в якій S т , хоча призводить недооптимально до S l + 1 і, отже, значення функції S t + 1StSt+1St+1Vt+2St+2StSl+1St+1вище, ніж але функція значення S t + 2 вище за цією політикою, ніж за політикою, знайденою шляхом оптимізації стану за станом. Як це ви скасуєте? Vl+1St+2
MiloMinderbinder

Я думаю, що визначення перешкоджатиме цьому в першу чергу, оскільки воно має враховувати й майбутні прибутки. V
Flying_Banana

Тоді виникає питання: чому існує ? Ви не можете обійти теорему фіксованої точки Банаха :-)q
Фабіан Вернер

10

Існування оптимальної політики не очевидно. Щоб зрозуміти чому, зауважте, що функція значення забезпечує лише часткове впорядкування по простору політик. Це означає:

ππvπ(s)vπ(s),sS

Оскільки це лише часткове впорядкування, може статися випадок, коли дві політики, і π 2 , не порівнянні. Іншими словами, існують підмножини простору стану, S 1 і S 2, такі:π1π2S1S2

vπ(s)vπ(s),sS1

vπ(s)vπ(s),sS2

У цьому випадку ми не можемо сказати, що одна політика краща за іншу. Але якщо ми маємо справу з кінцевими МДП з обмеженими значеннями функцій, то такий сценарій ніколи не виникає. Існує саме одна функція оптимального значення, хоча може бути кілька оптимальних політик.

Для підтвердження цього вам потрібно зрозуміти теорему фіксованої точки Банаха. Детальний аналіз див .


8

Налаштування

Ми розглядаємо в налаштуваннях:

  • Дискретні дії
  • Дискретні стани
  • Обмежені винагороди
  • Стаціонарна політика
  • Нескінченний обрій

V = max π V π ( s ) , s S V = V π

(1)πargmaxπVπ(s),sS
(2)V=maxπVπ(s),sS
(3)V=Vπ

Питання

Як довести, що існує принаймні одна яка задовольняє (1) одночасно для всіх ? s SπsS

Структура доказу

  1. Побудуйте оптимальне рівняння, яке буде використано як тимчасове сурогатне визначення функції оптимального значення, яке ми докажемо на кроці 2, що воно еквівалентне визначенню за допомогою рівняння (2).

    (4)V(s)=maxaA[R(s,a)+γsST(s,a,s)V(s)]
  2. Отримати еквівалентність визначення функції оптимального значення за допомогою рівняння (4) та через рівняння (2).

    (Зазначимо, насправді нам потрібен лише напрямок необхідності у доказуванні, оскільки достатня кількість очевидна, оскільки ми побудували рівняння (4) з рівняння (2).)

  3. Доведіть, що існує унікальне рішення рівняння (4).

  4. На етапі 2 ми знаємо, що розчин, отриманий на етапі 3, також є рішенням рівняння (2), тому це оптимальна величина функції.

  5. З функції оптимального значення ми можемо відновити оптимальну політику, вибравши дію максимізатора у рівнянні (4) для кожного стану.

Деталі кроків

1

Оскільки , у нас . І якщо є будь-який такий, що , ми можемо виберіть кращу політику шляхом максимізації над .V(s)=Vπ(s)=Ea[Qπ(s,a)]Vπ(s)maxaAQπ(s,a)s~VπmaxaAQπ(s,a)Q(s,a)=Qπ(s,a)a

2

(=>)

Виконує етап 1.

(<=)

тобто якщо задовольняє , тоді .V~V~(s)=maxaA[R(s,a)+γsST(s,a,s)V~(s)]V~(s)=V(s)=maxπVπ(s),sS

Визначте оптимального оператора Беллмана як Отже, наша мета - довести, що якщо , то . Ми показуємо це, комбінуючи два результати, слідуючи за Путерманом [1]:

(5)TV(s)=maxaA[R(s,a)+γsST(s,a,s)V(s)]
V~=TV~V~=V

а) Якщо , то .V~TV~V~V

б) Якщо , то .˜ VVV~TV~V~V

Доказ:

а)

Для будь-якого , Тут - правило рішення (профіль дії в певний час), - векторне представлення негайної винагороди індукований від і - матриця переходу, індукована з .π=(d1,d2,...)

V~TV~=maxd[Rd+γPdV~]Rd1+γPd1V~
dRddPdd

За індукції, для будь-якого , де являє собою -ступеневу матрицю переходу під .n

V~Rd1+i=1n1γiPπiRdi+1+γnPπnV~
Pπjjπ

Оскільки ми маємо Отже, у нас є . І оскільки це справедливо для будь-якого , ми робимо висновок, що b)

Vπ=Rd1+i=1γiPπiRdi+1
V~VπγnPπnV~i=nγiPπiRdi+10 as n
V~Vππ
V~maxπVπ=V

Випливає з кроку 1.

3

Оптимальний оператор Беллмана - це скорочення в нормі , пор. [2].L

Доказ: Для будь-яких , where in (*) ми використали той факт, що s maxaf(a)-max a g(a)maxa[f(a)-g(a)]

|TV1(s)TV2(s)|=|maxaA[R(s,a)+γsST(s,a,s)V1(s)]maxaA[R(s,a)+γsST(s,a,s)V(s)]|()|maxaA[γsST(s,a,s)(V1(s)V2(s))]|γV1V2
maxaf(a)maxag(a)maxa[f(a)g(a)]

Таким чином, з теорема фіксованої точки Банаха випливає, що має унікальну фіксовану точку.T

Список літератури

[1] Путерман, Мартін Л. "Процеси прийняття рішень Маркова: Дискретне стохастичне динамічне програмування". (2016).

[2] А. Лазарик. http://researchers.lille.inria.fr/~lazaric/Webpage/MVA-RL_Course14_files/slides-lecture-02-handout.pdf

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.