Отримання рівняння Беллмана в навчанні зміцнення


Відповіді:


7

Це відповідь для всіх, хто замислюється про чисту структуровану математику за нею (тобто якщо ви належите до тієї групи людей, яка знає, що таке випадкова величина, і ви повинні показати або припустити, що випадкова величина має щільність, то це відповідь за вас ;-)):

Перш за все, нам потрібно мати те, що процес прийняття рішення Маркова має лише кінцеве число -звернень, тобто нам потрібно, щоб існував скінченний набір щільності, кожна з яких належить змінним , тобто для всіх та карта така, що (тобто в автоматах, що стоять за MDP, може бути нескінченно багато станів, але є лише кінцево багато розподілів приєднаних до можливо нескінченних переходів між станами)L 1L1 E EL 1 L1R x e ( x ) d x < Rxe(x)dx<e E eEF : A × S E F:A×SEp ( r t | a t , s t ) = F ( a t , s t ) ( r t )

p(rt|at,st)=F(at,st)(rt)
L 1L1

Теорема 1 : Нехай (тобто інтегральна реальна випадкова величина), а - інша випадкова величина, така, що мають загальну щільність, тоді X L 1 ( Ω ) XL1(Ω)Y YX , Y X,YE [ X | Y = y ] = R x p ( x | y ) d x

E[X|Y=y]=Rxp(x|y)dx

Доказ : По суті, це підтвердив тут Стефан Хансен.

Теорема 2 : Нехай і нехай - додаткові випадкові величини, такі, що мають спільну щільність, то , де є діапазон .X L 1 ( Ω ) XL1(Ω)Y , Z Y,ZX , Y , Z X,Y,ZE [ X | Y = y ] = Z p ( z | y ) E [ X | Y = y , Z = z ] d z

E[X|Y=y]=Zp(z|y)E[X|Y=y,Z=z]dz
ZZ ZZ

Доведення : Е [ X | Y = y ]= R x p ( x | y ) d x    (від Thm. 1)= R x p ( x , y )p ( y ) dx= R x Z p ( x , y , z ) d zp ( y ) dx= ZR x p ( x , y , z )p ( y ) dxdz= ZR x p ( x | y , z ) p ( z | y ) d x d z= Z p ( z | y ) R x p ( x | y , z ) d x d z= Z p ( z | y ) E [ X | Y = y , Z = z ] d z    (від Thm. 1)

E[X|Y=y]=Rxp(x|y)dx    (by Thm. 1)=Rxp(x,y)p(y)dx=RxZp(x,y,z)dzp(y)dx=ZRxp(x,y,z)p(y)dxdz=ZRxp(x|y,z)p(z|y)dxdz=Zp(z|y)Rxp(x|y,z)dxdz=Zp(z|y)E[X|Y=y,Z=z]dz    (by Thm. 1)

Покладіть і покладіть тоді можна показати (використовуючи той факт, що у MDP є лише кінцево багато нагород), що сходиться і що оскільки функціявсе ще в (тобто інтегрується) можна також показати (використовуючи звичайну комбінацію теорем монотонної конвергенції, а потім домінує конвергенцію на визначальних рівняннях для [факторизації] умовного очікування), що Зараз це показує Gt=k=0γkRt+kG(K)t=Kk=0γkRt+kL1G(K)tk=0γk|Rt+k|L1(Ω) lim K E[ G ( K ) t | S t =s t ] = E [ G t | S t = s t ]

limKE[G(K)t|St=st]=E[Gt|St=st]
E [ G ( K ) t | S t = s t ] = E [ R t | S t = s t ] + γ S p ( s t + 1 | s t ) E [ G ( K -1 ) t + 1 | St+1=st+1]dst+1
E[G(K)t|St=st]=E[Rt|St=st]+γSp(st+1|st)E[G(K1)t+1|St+1=st+1]dst+1
G ( K ) t =Rt+γG ( K - 1 ) t + 1 E[G ( K - 1 ) t + 1 | St+1=s,S використовуючи , Thm. 2 вище, ніж Thm. 1 на а потім за допомогою прямої війни за маргіналізацію видно, що для всіх . Тепер нам потрібно застосувати межу до обох сторін рівняння. Для того, щоб вивести межу в інтеграл над простором стану нам потрібно зробити кілька додаткових припущень:G(K)t=Rt+γG(K1)t+1t = s t ] E[G(K1)t+1|St+1=s,St=st]p ( r q | s t + 1 , s t ) = p ( r q | s t + 1 ) p(rq|st+1,st)=p(rq|st+1)q t + 1 qt+1K KSS

Або простір стану кінцевий (тоді і сума кінцева), або всі винагороди є позитивними (тоді ми використовуємо монотонну конвергенцію), або всі нагороди негативні (тоді ми ставимо знак мінус перед рівняння і знову використовуємо монотонну конвергенцію) або всі нагороди обмежені (тоді ми використовуємо домінуючу конвергенцію). Тоді (застосовуючи до обох сторін часткового / кінцевого рівняння Беллмана вище), отримуємоS = S S=Slim K limK

Е [ Г т | S t = s t ] = E [ G ( K ) t | S t = s t ] = E [ R t | S t = s t ] + γ S p ( s t + 1 | s t ) E [ G t + 1 | S т+ 1 = s t + 1 ]d s t + 1

E[Gt|St=st]=E[G(K)t|St=st]=E[Rt|St=st]+γSp(st+1|st)E[Gt+1|St+1=st+1]dst+1

і тоді інше - це звичайна маніпуляція з щільністю.

ЗАБЕЗПЕЧЕННЯ: Навіть у дуже простих завданнях простір станів може бути нескінченним! Одним із прикладів може бути завдання «врівноваження полюса». Стан - це по суті кут полюса (значення в , незліченна безмежна множина!)[ 0 , 2 π )[0,2π)

ЗАБЕЗПЕЧЕННЯ: Люди можуть коментувати тісто, цей доказ можна скоротити набагато більше, якщо просто використовувати щільність безпосередньо і показати, що '... АЛЕ мої запитання:G tGt p ( g t + 1 | s t + 1 , s t ) = p ( g t + 1 | s t + 1 )p(gt+1|st+1,st)=p(gt+1|st+1)

  1. Звідки ви навіть знаєте, що має щільність?G t + 1Gt+1
  2. Звідки ви навіть знаєте, що має спільну щільність разом із ?G t + 1Gt+1 S t + 1 , S tSt+1,St
  3. Як можна зробити висновок, що ? Це не тільки властивість Маркова: властивість Маркова лише щось розповідає про граничні розподіли, але вони не обов'язково визначають весь розподіл, див., Наприклад, багатоваріантність гауссів!p ( g t + 1 | s t + 1 , s t ) = p ( g t + 1 | s t + 1 )p(gt+1|st+1,st)=p(gt+1|st+1)

10

Нехай загальна сума дисконтованих винагород за часом буде: t t
G t = R t + 1 + γ R t + 2 + γ 2 R t + 3 + . . .Gt=Rt+1+γRt+2+γ2Rt+3+...

Значення корисності старту в стані, в момент часу, еквівалентно очікуваній сумі дисконтованих винагород виконуючої політики починаючи з стану далі. За визначенням За законом лінійності Законом відs st t
R Rπ πs s
U π ( S t = s ) = E π [ G t | S t = s ]Uπ(St=s)=Eπ[Gt|St=s]
= Е π [ ( R T + 1 + γ R T + 2 + γ 2 R T + 3 + . . . ) | S т = и ] =Eπ[(Rt+1+γRt+2+γ2Rt+3+...)|St=s]G тGt
= Е π [ ( R T + 1 + γ ( R T + 2 + γ R T + 3 + . . .) ) | S t = s ] =Eπ[(Rt+1+γ(Rt+2+γRt+3+...))|St=s]
= E π [ ( R t + 1 + γ ( G t + 1 ) ) | S t = s ] =Eπ[(Rt+1+γ(Gt+1))|St=s]
= E π [ R t + 1 | S t = s ] + γ E π [ G t + 1 | S t = s ]=Eπ[Rt+1|St=s]+γEπ[Gt+1|St=s]
= E π [ R t + 1 | S t = s ] + γ E π [ E π ( G t + 1 | S t + 1 = s ) | S t = s ] = E π [ R t + 1 | S t = s ] + γ E π [ U=Eπ[Rt+1|St=s]+γEπ[Eπ(Gt+1|St+1=s)|St=s]Загальний очікування За визначенням За законом лінійності
π ( S t + 1 = s ) | S t = s ] U π = E π [ R t + 1 + γ U π ( S t + 1 = s ) | S t = s ]=Eπ[Rt+1|St=s]+γEπ[Uπ(St+1=s)|St=s]Uπ
=Eπ[Rt+1+γUπ(St+1=s)|St=s]

Якщо припустити, що процес задовольняє властивість Маркова:
ймовірність, що закінчується в стані , починаючи зі стану і вживаючи дії , і винагорода закінчується в стані , починаючи зі стану і вживаючи дії , P r Prs s s sa a
P r ( s | s , a ) = P r ( S t + 1 = s , S t = s , A t = a ) Pr(s|s,a)=Pr(St+1=s,St=s,At=a)
R Rs s s sa a
R ( s , a , s ) = [ R t + 1 | S т= s , A t = a , S t + 1 = s ]R(s,a,s)=[Rt+1|St=s,At=a,St+1=s]

Тому ми можемо переписати вище рівняння утиліти як,
= a π ( a | s ) s P r ( s | s , a ) [ R ( s , a , s ) + γ U π ( S t + 1 = s ) ]=aπ(a|s)sPr(s|s,a)[R(s,a,s)+γUπ(St+1=s)]

Де; : ймовірність вжити заходів коли в штаті для стохастичної політики. Для детермінованої політикиπ ( a | s ) a s a π ( a | s ) = 1π(a|s)asaπ(a|s)=1


Лише кілька зауважень: Сума над дорівнює 1 навіть у стохастичній політиці, але в детермінованій політиці існує лише одна дія, яка отримує повну вагу (тобто і решта отримайте 0 ваги, так що цей термін вилучено з рівняння. Також у рядку, який ви використовували закон загальних очікувань, порядок умовних змін змінюєтьсяπ π ( a | s ) = 1ππ(a|s)=1
Gilad Peleg

1
Я майже впевнений, що ця відповідь невірна: Дотримуйтесь рівнянь лише до рядка, що містить закон повного очікування. Тоді ліва частина не залежить від в той час як права рука робить ... Тобто якщо рівняння вірні , то , для яких є чи вони? У вас повинен бути якийсь інтеграл протягом вже на цьому етапі. Причиною є, мабуть, ваше нерозуміння різниці (випадкова величина) проти його факторизації (детермінована функція!) ...s s s E [ X | Y ] E [ X | Y = y ]sssE[X|Y]E[X|Y=y]
Фабіан Вернер

@FabianWerner Я погоджуюся, що це неправильно. Відповідь Цзе Ши - правильна відповідь.
Teucer

@teucer Цю відповідь можна виправити, тому що просто не вистачає деякої "симетризації", тобто але все-таки питання те саме, що і у відповіді Цзе Ши: Чому ? Це не лише властивість Маркова, тому що - це дійсно складний RV: він навіть зближується? Якщо так, то де? Яка загальна щільність ? Ми знаємо цей вираз лише для кінцевих сум (складна згортка), але для нескінченного випадку? Е [ А | C = c ] = діапазон ( B ) p ( b | c ) E [ A | B = b , C = c ] d P B ( b ) E [ G t + 1 | S t + 1 = s t + 1 , S t = s t ]E[A|C=c]=range(B)p(b|c)E[A|B=b,C=c]dPB(b)= E [ G t + 1 | S t + 1 = s t + 1 ] G t + 1 p ( g t + 1 , s t + 1 , s t )E[Gt+1|St+1=st+1,St=st]=E[Gt+1|St+1=st+1]Gt+1p(gt+1,st+1,st)
Фабіан Вернер

@FabianWerner не впевнений, чи зможу я відповісти на всі запитання. Нижче деякі покажчики. Для зближення , враховуючи, що це сума дисконтованих винагород, доцільно припустити, що ряд конвергується (коефіцієнт дисконтування становить а те, де він сходить, насправді не має значення). Я не переймаюся щільністю (завжди можна визначити щільність суглоба, якщо у нас є випадкові величини), це має значення лише в тому випадку, якщо вона чітко визначена і в такому випадку вона є. G t + 1 < 1Gt+1<1
тендер

8

Ось мій доказ. Він заснований на маніпулюванні умовними розподілами, що полегшує їх дотримання. Сподіваюся, що цей вам допоможе. v π ( s )= E [ G t | S t = s ]= E [ R t + 1 + γ G t + 1 | S t = s ]= s r g t + 1a p ( s , r , g t + 1 , a | s ) ( r + γ g t + 1 )= a p ( a | s ) s r g t + 1 p ( s , r , g t + 1 | a , s ) ( r + γ g t + 1 )= a p ( a | s ) s r g t + 1 p ( s , r | a , s ) p ( g t + 1 | s , r , a , s ) ( r + γ g t + 1 )Зауважимо, що  p ( g t + 1 | s , r , a , s ) = p ( g t + 1 | s )  за припущенням MDP= a p ( a | s ) s r p ( s , r | a , s ) g t + 1 p ( g t + 1 | s ) ( r + γ g t + 1 )= a p ( a | s ) s r p ( s , r | a , s ) ( r + γ g t + 1 p ( g t + 1 | s ) g t + 1 )= a p ( a | s ) s r p ( s , r | a , s ) ( r + γ v π ( s ) )

vπ( и )= Е[ Гт| Sт= s ]= Е[ Rt + 1+ γГt + 1| Sт= s ]= с'rгt + 1ар (s', г , жt + 1, a | s ) ( r + γгt + 1)= аp ( a | s ) с'rгt + 1р (s', г , жt + 1| a,s)(r+γгt + 1)= аp ( a | s ) с'rгt + 1р (s', r | a , s ) p ( gt + 1|s',r,a,s)(r+γgt+1)Note that p(gt+1|s,r,a,s)=p(gt+1|s) by assumption of MDP=ap(a|s)srp(s,r|a,s)gt+1p(gt+1|s)(r+γgt+1)=ap(a|s)srp(s,r|a,s)(r+γgt+1p(gt+1|s)gt+1)=ap(a|s)srp(s,r|a,s)(r+γvπ(s))
Це відоме рівняння Беллмана.


Ви не проти пояснити цей коментар "Зауважте, що ..." ще трохи? Чому ці випадкові величини і змінні стану та дії навіть мають загальну щільність? Якщо так, то чому ви знаєте цю властивість, яку ви використовуєте? Я бачу, що це правда для кінцевої суми, але якщо випадкова величина є граничною ... ??? G t + 1Gt+1
Фабіан Вернер

Для Фабіана: Спочатку згадаймо, що таке . . Зауважте, що залежить безпосередньо від і оскільки фіксує всю інформацію про перехід MDP (точніше, не залежить від усіх станів, дій та винагород до часу заданих та ). Аналогічно, залежить лише від і . В результаті не залежить від ,G t + 1 G t + 1 = R t + 2 + R t + 3 + R t + 2 S t + 1 A t + 1 p ( s , r | s , a ) R t + 2 t + 1 S t + 1 A t + 1 R t +Gt+1Gt+1=Rt+2+Rt+3+Rt+2St+1At+1p(s,r|s,a)Rt+2t+1St+1At+13 S t + 2 A t + 2 G t + 1 S t A t R t S t + 1Rt+3St+2At+2Gt+1StAt, а задано , що пояснює цей рядок. RtSt+1
Jie Shi

Вибачте, що це лише "мотивує" це, але насправді нічого не пояснює. Наприклад: Яка щільність ? Чому ви впевнені, що ? Чому ці випадкові величини навіть мають загальну щільність? Ви знаєте, що сума перетворюється на згортку в густини, так що ... має мати нескінченну кількість інтегралів у щільності ??? Кандидата на щільність абсолютно немає! G t + 1 p ( g t + 1 | s t + 1 , s t ) = p ( g t + 1 | s t + 1 ) G t + 1Gt+1p(gt+1|st+1,st)=p(gt+1|st+1)Gt+1
Фабіан Вернер

До Фабіана: Я не отримую вашого запитання. 1. Ви хочете точну форму граничного розподілу ? Я цього не знаю, і нам це не потрібно в цьому доказі. 2. чому ? Тому що, як я вже згадував, і є незалежними, задані . 3. Що ви маєте на увазі під загальною щільністю? Ви маєте на увазі спільний розподіл? Ви хочете знати, чому ці випадкові змінні мають спільний розподіл? Усі випадкові змінні у цьому Всесвіті можуть мати спільний розподіл. Якщо це ваше питання, я б запропонував вам знайти книгу теорії ймовірностей і прочитати її. p ( g t + 1 ) p ( g t + 1 | s t + 1 , s t ) = p ( g t + 1 | s t + 1 ) g t + 1 s t s t + 1p(gt+1)p(gt+1|st+1,st)=p(gt+1|st+1)gt+1stst+1
Jie Shi

Давайте перенесемо цю дискусію на чат: chat.stackexchange.com/rooms/88952/bellman-equation
Фабіан Вернер

2

Що з наступним підходом?

v π ( s )= E π [ G tS t = s ]= E π [ R t + 1 + γ G t + 1S t = s ]= a π ( a s ) s r p ( s , r s , a ) E π [ R t + 1 + γ G t + 1S t = s , A t + 1 = a , S t + 1 = s , R t + 1 = r ]= a π ( a s ) s , r p ( s , r s , a ) [ r + γ v π ( s ) ] .

vπ(s)=Eπ[GtSt=s]=Eπ[Rt+1+γGt+1St=s]=aπ(as)srp(s,rs,a)Eπ[Rt+1+γGt+1St=s,At+1=a,St+1=s,Rt+1=r]=aπ(as)s,rp(s,rs,a)[r+γvπ(s)].

Суми вводяться для отримання , та з . Адже можливі дії та можливі наступні стани можуть бути. За таких додаткових умов лінійність очікування веде до результату майже безпосередньо.a s r sasrs

Я не впевнений, наскільки суворий мій аргумент математично. Я відкритий для вдосконалень.


Останній рядок працює лише через властивість MDP.
тендер

2

Це лише коментар / доповнення до прийнятої відповіді.

Мене збентежило те, що застосовується закон загального очікування. Я не думаю, що тут може допомогти основна форма закону загальних очікувань. Тут насправді потрібен варіант цього.

Якщо є випадковими змінними і припускаючи, що всі очікування існують, то має місце така ідентичність:X , Y , ZX,Y,Z

Е [ X | Y ] = E [ E [ X | Y , Z ] | Y ]E[X|Y]=E[E[X|Y,Z]|Y]

У цьому випадку , і . ПотімX = G t + 1X=Gt+1 Y = S tY=St Z = S t + 1Z=St+1

E [ G t + 1 | S t = s ] = E [ E [ G t + 1 | S t = s , S t + 1 = s | S t = s ] E[Gt+1|St=s]=E[E[Gt+1|St=s,St+1=s|St=s] , який за властивістю Маркова еквівалентноE [ E [ G t + 1 | S t + 1 = s ] | S t =с ]E[E[Gt+1|St+1=s]|St=s]

Звідти можна було прослідкувати решту доказів з відповіді.


1
Ласкаво просимо в CV! Будь ласка, використовуйте відповіді лише для відповіді на запитання. Як тільки у вас буде достатня репутація (50), ви можете додавати коментарі.
Франс Роденбург

Дякую. Так, оскільки я не міг коментувати через недостатню репутацію, я подумав, що може бути корисним додати пояснення до відповідей. Але я буду мати це на увазі.
Мехді Голарі

Я підтримав, але все ж у цій відповіді відсутні деталі: Навіть якщо задовольняє це шалене відношення, тоді ніхто не гарантує, що це справедливо і для факторизації умовних очікувань! Тобто , як і в випадку з відповіддю Ntabgoba: Ліва сторона не залежить від в той час як права рука робить . Це рівняння не може бути правильним! Е [ X | Y ] s E[X|Y]s
Фабіан Вернер

1

E π ()ππ(a | s)asEπ() зазвичай позначає очікування, припускаючи, що агент дотримується політики . У цьому випадку видається недетермінованим, тобто повертає ймовірність того, що агент вчинить дії коли знаходиться в стані .ππ(a|s)as

Схоже, , нижній регістр, замінює , випадкову змінну. Друге очікування замінює нескінченну суму, щоб відобразити припущення, що ми продовжуємо слідувати для всіх майбутніх . - це очікувана негайна винагорода на наступному етапі часу; Друге очікування-який стає це очікуване значення наступного стану, зважених за ймовірністю намотування в стан , взявши з .r Rr t + 1 πts , r rp(s ,r | s,a) v π s asRt+1πts,rrp(s',r|s,a)vπsas

Таким чином, очікування враховує ймовірність політики, а також функції переходу та винагороди, виражені разом як .p ( s , r | s , a )p(s,r|s,a)


Спасибі. Так, те, що ви згадали про є правильним (це ймовірність того, що агент вчинить дії коли знаходиться в стані ). π ( a | s ) a sπ(a|s)as
Амеліо Васкес-Рейна

Що я не дотримуюсь, це які терміни точно розширюються на які терміни на другому кроці (я знайомий з коефіцієнтом ймовірності й маргіналізації, але не стільки з RL). Чи термін розширюється? Тобто, що саме на попередньому кроці дорівнює тому, що саме на наступному кроці? Р тRt
Амеліо Васкес-Рейна

1
Схоже, , нижній регістр, замінює , випадкову змінну, а друге очікування замінює нескінченну суму (можливо, щоб відобразити припущення, що ми продовжуємо слідувати для всіх майбутніх ). - це очікувана негайна винагорода на наступному етапі часу, а друге очікування, яке стає - очікуване значення наступного стану, зважене на ймовірність в штаті взявши з . r R t + 1 π t Σ p ( s rRt+1πt , r | s , a ) r v π s a sΣp(s,r|s,a)rvπsas
Шон Пасха

1

незважаючи на те, що правильна відповідь вже надіслана і пройшов деякий час, я вважав, що наступний покроковий посібник може бути корисним:
За лінійністю очікуваного значення ми можемо розділити в і . Я накресліть кроки лише для першої частини, оскільки друга частина слідує тими ж кроками, що поєднуються із Законом про сукупні очікування.E [ R t + 1 + γ E [ G t + 1 | S t = s ] ] E[Rt+1+γE[Gt+1|St=s]]E [ R t + 1 | S t = s ] E[Rt+1|St=s]γ E [ G t + 1 | S t = s ]γE[Gt+1|St=s]

E [ R t + 1 | S t = s ]= r r P [ R t + 1 = r | S t = s ]= a r r P [ R t + 1 = r , A t = a | S t = s ](III)= a r r P [ R t + 1 = r | A t = a , S t = s ] P [ A t = a | S t = s ]= sa rrP[S t + 1 =s ,R t + 1 =r| At=a,St=s]P[At=a| St=s]= a π ( a | s ) s ,Rp(s ,R| s,а)r

E[Rt+1|St=s]=rrP[Rt+1=r|St=s]=arrP[Rt+1=r,At=a|St=s](III)=arrP[Rt+1=r|At=a,St=s]P[At=a|St=s]=sarrP[St+1=s,Rt+1=r|At=a,St=s]P[At=a|St=s]=aπ(a|s)s,rp(s,r|s,a)r

Тоді як (III) має форму: П [ А , В | C ]= P [ A , B , C ]P [ C ]= P [ A , B , C ]P [ C ] P[B,C]P [ B , C ]= P [ A , B , C ]P [ B , C ] P[B,C]P [ C ]= Р [ А | B , C ] P [ B | C ]

P[A,B|C]=P[A,B,C]P[C]=P[A,B,C]P[C]P[B,C]P[B,C]=P[A,B,C]P[B,C]P[B,C]P[C]=P[A|B,C]P[B|C]


1

Я знаю, що вже є прийнята відповідь, але я хочу надати більш конкретний вихід. Я також хотів би зазначити, що хоча трюк @ Jie Shi дещо має сенс, але мені це стає дуже незручно :(. Нам потрібно врахувати часовий вимір, щоб зробити цю роботу. І важливо зазначити, що очікування насправді є взято на весь нескінченний горизонт, а не просто над і . Припустимо, ми починаємо з (насправді, деривація однакова незалежно від часу початку; я не хочу забруднювати рівняння з іншим підписним ) s ss s t = 0 t=0k kv π ( s 0 )= E π [ G 0 | s 0 ] G 0= T - 1 t=0γtRt+1Eπ[G0| s0]= Σ 0 π ( 0 | S 0 ) Σ 1 , . . . Т Σ їв 1 , . . . з Т Σ г 1 , . . . r Т ( T - 1 t = 0 π(a t + 1 |s t + 1 )p(s t + 1 , r t + 1 | s t , a t )× ( T - 1 t = 0 γtr t + 1 ) )= Σ 0 π ( 0 | S 0 ) Σ 1 , . . . Т Σ їв 1 , . . . з Т Σ г 1 , . . . r Т ( T - 1 t = 0 π(a t + 1 |s t + 1 )p(s t + 1 , r t + 1 | s t , a t )× ( r 1 + γ T - 2 t = 0 γ t r t + 2 ) )

vπ(s0)G0Eπ[G0|s0]=Eπ[G0|s0]=t=0T1γtRt+1=a0π(a0|s0)a1,...aTs1,...sTr1,...rT(t=0T1π(at+1|st+1)p(st+1,rt+1|st,at)×(t=0T1γtrt+1))=a0π(a0|s0)a1,...aTs1,...sTr1,...rT(t=0T1π(at+1|st+1)p(st+1,rt+1|st,at)×(r1+γt=0T2γtrt+2))
Tabcabcaabbcc ВІДПОВІДАЛИ, ЩО ВІДПОВІДНІ РІВНЯННІ , ФАКТУВАННЯ БУДЕ ПРАВИЛЬНО ДО КІНЦЯ УНІВЕРСІЮ (можливо, трохи перебільшеним :))T
На цьому етапі, я вважаю, більшість із нас уже повинні мати на увазі, як вищезазначене призводить до остаточного вираження - нам просто потрібно застосовувати правило суми-продукту ( ) кропітко . Застосуємо закон лінійності очікування до кожного терміна всерединіabcabcaabbcc ( r 1 +γ T - 2 t = 0 γtr t + 2)(r1+γT2t=0γtrt+2)

Частина 1 Σ 0 π(0|S0) Е 1 , . . . Т Σ їв 1 , . . . з Т Σ г 1 , . . . r T ( tT - 1 t = 0 π(a t + 1 |s t + 1 )p(s + 1 , r t + 1 | s t , a t )× r 1 )

a0π(a0|s0)a1,...aTs1,...sTr1,...rT(t=0T1π(at+1|st+1)p(st+1,rt+1|st,at)×r1)

Ну це досить тривіально, всі ймовірності зникають (насправді сума до 1), крім тих, що стосуються . Тому маємо r 1 r1a 0 π ( a 0 | s 0 ) s 1 , r 1 p ( s 1 , r 1 | s 0 , a 0 ) × r 1

a0π(a0|s0)s1,r1p(s1,r1|s0,a0)×r1

Частина 2
Здогадайтеся, ця частина є ще більш тривіальною - вона передбачає лише перестановку послідовності підсумовування. Σ 0 π(0|S0) Е 1 , . . . Т Σ їв 1 , . . . з Т Σ г 1 , . . . r T ( T - 1 t = 0 π(a t + 1 |s t + 1 )p(st + 1 , r t + 1 | s t , a t ) )= Σ 0 π ( 0 | ів 0 ) Σ s 1 , R 1 р ( з 1 , г 1 | ів 0 , а 0 ) ( Σ 1 π ( 1 | ів 1 ) Е 2 , . . . Т Σ s 2 , . . . зТ Σ г 2 ,. . . r T ( T - 2 t=0t+2|st+1,at+1))) π(a t + 2 |s t + 2 )p(s t + 2 ,r

a0π(a0|s0)a1,...aTs1,...sTr1,...rT(t=0T1π(at+1|st+1)p(st+1,rt+1|st,at))=a0π(a0|s0)s1,r1p(s1,r1|s0,a0)(a1π(a1|s1)a2,...aTs2,...sTr2,...rT(t=0T2π(at+2|st+2)p(st+2,rt+2|st+1,at+1)))

І Еврика !! ми відновимо рекурсивну схему в бік великих дужок. Об’єднаємо його з , і отримаємо і частина 2 стає γ T - 2 t = 0 γ t r t + 2γT2t=0γtrt+2 v π ( s 1 ) = E π [ G 1 | s 1 ] vπ(s1)=Eπ[G1|s1] γ E π [ G 1 | їв 1 ] = Σ 1 Σ s 2 , . . . з Т Σ г 2 , . . . r π ( 1 | S 1 ) Σ 2 , . . . a ТT ( T - 2 t=0π(at+2|st+2)p(st + 2 , r t + 2 | s t + 1 , a t + 1 ) )( γ T - 2 t = 0 γtr t + 2 )

γEπ[G1|s1]=a1π(a1|s1)a2,...aTs2,...sTr2,...rT(t=0T2π(at+2|st+2)p(st+2,rt+2|st+1,at+1))(γt=0T2γtrt+2)

a 0 π(a0|s0)s 1 , r 1 p(s1,r1|s0,a0)×γv π (s1)
a0π(a0|s0)s1,r1p(s1,r1|s0,a0)×γvπ(s1)

Частина 1 + Частина 2 v π ( s 0 ) = a 0 π ( a 0 | s 0 ) s 1 , r 1 p ( s 1 , r 1 | s 0 , a 0 ) × ( r 1 + γ v π ( s 1 ) )

vπ(s0)=a0π(a0|s0)s1,r1p(s1,r1|s0,a0)×(r1+γvπ(s1))

А тепер, якщо ми можемо підтягнути часовий вимір та відновити загальні рекурсивні формули

v π ( s ) = a π ( a | s ) s , r p ( s , r | s , a ) × ( r + γ v π ( s ) )

vπ(s)=aπ(a|s)s,rp(s,r|s,a)×(r+γvπ(s))

Підсумкове зізнання, я сміявся, коли побачив, як люди вище згадують про використання закону загального сподівання. Так ось я


Erm ... що означає символ " '? Немає ...Σ 0 , . . . , a a a0,...,aa
Фабіан Вернер

Ще одне питання: Чому саме перше рівняння відповідає дійсності? Я знаю, що але в нашому випадку буде нескінченною послідовністю випадкових величин тож нам потрібно було б обчислити щільність цієї змінної (що складається з нескінченної кількості змінних, про яку ми знаємо щільність) разом із чимось іншим (а саме державою). .. як саме ти це робиш? Тобто що таке ? E [ f ( X ) | У = у ] = X F ( х ) р ( х | у ) д х Х ( R 0 , R 1 , R 2 , . . . . . . . . ) Р (E[f(X)|Y=y]=Xf(x)p(x|y)dxX(R0,R1,R2,........) г 0 , г 1 , . . . . )p(r0,r1,....)
Фабіан Вернер

@FabianWerner. Зробіть глибокий вдих, щоб спочатку заспокоїти мозок :). Дозвольте мені відповісти на ваше перше запитання. . Якщо ви пригадуєте визначення функції значення, це насправді підсумок знижених майбутніх винагород. Якщо ми вважаємо нескінченним горизонтом своїх майбутніх нагород, то нам потрібно підсумувати нескінченну кількість разів. Винагорода є результатом дії від держави, оскільки існує нескінченна кількість винагород, має бути нескінченна кількість дій, отже, . Σ 0 , . . . , Σ 0 Σ 1 , . . . , a a a0,...,aa0a1,...,aa
Карлссон Ю

1
припустимо, що я погоджуюся, що є якась дивна (в чому я все-таки сумніваюся, зазвичай студенти в першому семестрі математики прагнуть плутати межу з якоюсь конструкцією, яка насправді передбачає нескінченний елемент) ... Я все одно є одне просте запитання: як визначається " ? Я знаю, що цей вираз повинен означати з кінцевою сумою ... але нескінченно багато з них? Що ви розумієте, що цей вираз робить? a a 1 . . . a aa1...a
Фабіан Вернер

1
Інтернет. Не могли б ви віднести мене до сторінки чи будь-якого місця, яке визначає ваше вираження? Якщо ні, то ви насправді визначили щось нове, і немає сенсу обговорювати це, оскільки це просто символ, який ви склали (але сенсу немає за ним) ... ви погоджуєтесь, що ми можемо обговорювати лише символ якщо ми обидва знаємо, що це означає, правда? Отже, я не знаю, що це означає, поясніть, будь ласка ...
Фабіан Вернер

1

На це питання вже існує дуже багато відповідей, але більшість стосується кількох слів, що описують, що відбувається в маніпуляціях. Я думаю, що я відповім на це набагато більше слів. Починати,

G tT k = t + 1 γ k - t - 1 R k

Gtk=t+1Tγkt1Rk

визначається в рівнянні 3.11 Саттона і Барто, з постійним коефіцієнтом дисконтування і ми можемо мати або , але не обидва. Оскільки винагорода, , є випадковими змінними, так і оскільки це лише лінійна комбінація випадкових змінних.0 γ 10γ1 T = T=γ = 1 γ=1R kRk G tGt

v π ( s )E π [ G tS t = s ]= E π[ R t + 1 + γ G t + 1S t = s ]= E π [ R t + 1 | S t = s ] + γ E π [ G t + 1 | S t = s ]

vπ(s)Eπ[GtSt=s]=Eπ[Rt+1+γGt+1St=s]=Eπ[Rt+1|St=s]+γEπ[Gt+1|St=s]

Цей останній рядок випливає з лінійності значень очікування. - це винагорода, яку отримує агент після вступу в дію на етапі часу . Для простоти я припускаю, що він може приймати кінцеву кількість значень . R t + 1Rt+1 t tr RrR

Робота над першим терміном. Словом, мені потрібно обчислити значення очікування враховуючи, що ми знаємо, що поточний стан є . Формула для цього єR t + 1Rt+1 сs

E π [ R t + 1 | S t = s ] =r R rp(r | s).

Eπ[Rt+1|St=s]=rRrp(r|s).

Іншими словами, ймовірність появи винагороди залежить від стану ; різні держави можуть мати різну винагороду. Цей розподіл є граничним розподілом розподілу, який також містив змінні і , дію, зроблену в момент і стан в момент після дії відповідно:r rs sp ( r | s ) p(r|s)a as s t tt + 1t+1

p ( r | s ) = s Sa A p ( s , a , r | s ) = s Sa A π ( a | s ) p ( s , r | a , s ) .

p(r|s)=sSaAp(s,a,r|s)=sSaAπ(a|s)p(s,r|a,s).

Де я використав , дотримуючись конвенції книги. Якщо ця остання рівність є заплутаною, забудьте про суми, придушіть (ймовірність тепер виглядає як спільна ймовірність), використовуйте закон множення і, нарешті, введіть умову на у всіх нових умовах. Зараз легко зрозуміти, що перший термін єπ ( a | s ) p ( a | s ) π(a|s)p(a|s)s sss

E π [ R t + 1 | S t = s ] =r Rs Sa A rπ(a | s)p( s ,r | a,s),

Eπ[Rt+1|St=s]=rRsSaArπ(a|s)p(s,r|a,s),

по мірі необхідності. Про другий член, де я припускаю, що - випадкова величина, яка приймає кінцеву кількість значень . Як і перший термін:G t + 1Gt+1 g ΓgΓ

E π [ G t + 1 | S t = s ] =g Γ gp(g | s).( )

Eπ[Gt+1|St=s]=gΓgp(g|s).()

Ще раз я "не маргіналізую" розподіл ймовірностей шляхом написання (знову закон множення)

р ( г | с )= r Rs Sa A p ( s , r , a , g | s ) = r Rs Sa A p ( g | s , r , a , s ) p ( s , r ,а | з )= r Rs Sa A p ( g | s , r , a , s ) p ( s , r | a , s ) π ( a | s )= r Rs Sa A p ( g | s , r , a , s ) p ( s , r | a , s ) π ( a | s )= r Rs Sa A p ( g | s ) p ( s , r | a , s ) π ( a | s )( )

p(g|s)=rRsSaAp(s,r,a,g|s)=rRsSaAp(g|s,r,a,s)p(s,r,a|s)=rRsSaAp(g|s,r,a,s)p(s,r|a,s)π(a|s)=rRsSaAp(g|s,r,a,s)p(s,r|a,s)π(a|s)=rRsSaAp(g|s)p(s,r|a,s)π(a|s)()

Останній рядок там випливає із власності Марковія. Пам'ятайте, що - це сума всіх майбутніх (дисконтованих) нагород, які отримує агент після стану . Властивість Марковія полягає в тому, що процес не має пам'яті стосовно попередніх станів, дій та винагород. Майбутні дії (і винагороди, які вони отримують) залежать лише від стану, в якому вживаються дії, тому , за припущенням. Добре, тож другий термін у доказі заразG t + 1Gt+1 s p ( g | s , r ,s a , s ) = p ( g | s )p(g|s,r,a,s)=p(g|s)

γ E π [ G t + 1 | S t = s ]= γ g Γ r Rs Sa A g p ( g | s ) p ( s , r | a , s ) π ( a | s )= γ r Rs Sa A E π [ G t + 1 | S t + 1 = s ] p ( s , r | a , s ) π ( a | s )= γ r Rs Sa A v π ( s ) p ( s , r | a , s ) π ( a | s )

γEπ[Gt+1|St=s]=γgΓrRsSaAgp(g|s)p(s,r|a,s)π(a|s)=γrRsSaAEπ[Gt+1|St+1=s]p(s,r|a,s)π(a|s)=γrRsSaAvπ(s)p(s,r|a,s)π(a|s)

як потрібно, ще раз. Поєднання двох термінів завершує доказ

v π ( s )Е π [ G tS t = s ]= a A π ( a | s ) r Rs S p ( s , r | a , s ) [ r + γ v π ( s ) ] .

vπ(s)Eπ[GtSt=s]=aAπ(a|s)rRsSp(s,r|a,s)[r+γvπ(s)].

ОНОВЛЕННЯ

Я хочу розглянути питання про те, що може бути схожим на хитрості рук у походженні другого терміна. У рівнянні, позначеному символом , я використовую термін а потім пізніше в рівнянні, позначеному я стверджую, що не залежить від , аргументуючи властивість Маркова. Отже, ви можете сказати, що якщо це так, то . Але це неправда. Я можу взяти тому що ймовірність зліва від цього твердження говорить про те, що це ймовірність обумовлена , , , і( ) ()p ( g | s ) p(g|s)( ) ()g gs sp ( g | s ) = p ( g ) p(g|s)=p(g)p ( g | s , r , a , s ) p ( g | s ) p(g|s,r,a,s)p(g|s)g gs s a ar rs s. Тому що ми знаємо , або приймаємо на себе держава , жоден з інших умовних не мають значення, так як Марківське властивість. Якщо ви не знаєте , чи припустити , що стан , то майбутні нагороди (значення ) будуть залежати від стану ви починаєте з, тому що це буде визначати (на основі політики) , які держава ви починаєте при обчисленні .s ss s g gs s gg

Якщо цей аргумент не переконує вас, спробуйте обчислити, що таке :р ( г )p(g)

р ( г )= s S p ( g , s ) = s S p ( g | s ) p ( s )= s S p ( g | s ) s , a , r p ( s , a , r , s )= s S p ( g | s ) s , a , r p ( s , r | a , s ) p ( a , s )= s S p ( s ) s S p ( g | s ) a , r p ( s , r | a , s ) π ( a | s )s S p ( s ) p ( g | s ) = s S p ( g , s ) = p ( g ) .

p(g)=sSp(g,s)=sSp(g|s)p(s)=sSp(g|s)s,a,rp(s,a,r,s)=sSp(g|s)s,a,rp(s,r|a,s)p(a,s)=sSp(s)sSp(g|s)a,rp(s,r|a,s)π(a|s)sSp(s)p(g|s)=sSp(g,s)=p(g).

Як видно в останньому рядку, не вірно, що . Очікуване значення залежить від того, у якому стані ви починаєте (тобто ідентифікація ), якщо ви не знаєте чи не припускаєте стан .p ( g | s ) = p ( g ) p(g|s)=p(g)g gs ss s

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.