Наступне рівняння я бачу у " In Arforforment Learning. Introduction ", але не дуже слідую кроку, який я виділив синім кольором нижче. Як саме походить цей крок?
Наступне рівняння я бачу у " In Arforforment Learning. Introduction ", але не дуже слідую кроку, який я виділив синім кольором нижче. Як саме походить цей крок?
Відповіді:
Це відповідь для всіх, хто замислюється про чисту структуровану математику за нею (тобто якщо ви належите до тієї групи людей, яка знає, що таке випадкова величина, і ви повинні показати або припустити, що випадкова величина має щільність, то це відповідь за вас ;-)):
Перш за все, нам потрібно мати те, що процес прийняття рішення Маркова має лише кінцеве число -звернень, тобто нам потрібно, щоб існував скінченний набір щільності, кожна з яких належить змінним , тобто для всіх та карта така, що
(тобто в автоматах, що стоять за MDP, може бути нескінченно багато станів, але є лише кінцево багато розподілів приєднаних до можливо нескінченних переходів між станами)L 1
Теорема 1 : Нехай (тобто інтегральна реальна випадкова величина), а - інша випадкова величина, така, що мають загальну щільність, тоді
X ∈ L 1 ( Ω )
Доказ : По суті, це підтвердив тут Стефан Хансен.
Теорема 2 : Нехай і нехай - додаткові випадкові величини, такі, що мають спільну щільність, то
,
де є діапазон .X ∈ L 1 ( Ω )
Доведення :
Е [ X | Y = y ]= ∫ R x p ( x | y ) d x (від Thm. 1)= ∫ R x p ( x , y )p ( y ) dx= ∫ R x ∫ Z p ( x , y , z ) d zp ( y ) dx= ∫ Z ∫ R x p ( x , y , z )p ( y ) dxdz= ∫ Z ∫ R x p ( x | y , z ) p ( z | y ) d x d z= ∫ Z p ( z | y ) ∫ R x p ( x | y , z ) d x d z= ∫ Z p ( z | y ) E [ X | Y = y , Z = z ] d z (від Thm. 1)
Покладіть і покладіть тоді можна показати (використовуючи той факт, що у MDP є лише кінцево багато нагород), що сходиться і що оскільки функціявсе ще в (тобто інтегрується) можна також показати (використовуючи звичайну комбінацію теорем монотонної конвергенції, а потім домінує конвергенцію на визначальних рівняннях для [факторизації] умовного очікування), що
Зараз це показує
Або простір стану кінцевий (тоді і сума кінцева), або всі винагороди є позитивними (тоді ми використовуємо монотонну конвергенцію), або всі нагороди негативні (тоді ми ставимо знак мінус перед рівняння і знову використовуємо монотонну конвергенцію) або всі нагороди обмежені (тоді ми використовуємо домінуючу конвергенцію). Тоді (застосовуючи до обох сторін часткового / кінцевого рівняння Беллмана вище), отримуємо∫ S = ∑ S
Е [ Г т | S t = s t ] = E [ G ( K ) t | S t = s t ] = E [ R t | S t = s t ] + γ ∫ S p ( s t + 1 | s t ) E [ G t + 1 | S т+ 1 = s t + 1 ]d s t + 1
і тоді інше - це звичайна маніпуляція з щільністю.
ЗАБЕЗПЕЧЕННЯ: Навіть у дуже простих завданнях простір станів може бути нескінченним! Одним із прикладів може бути завдання «врівноваження полюса». Стан - це по суті кут полюса (значення в , незліченна безмежна множина!)[ 0 , 2 π )
ЗАБЕЗПЕЧЕННЯ: Люди можуть коментувати тісто, цей доказ можна скоротити набагато більше, якщо просто використовувати щільність безпосередньо і показати, що '... АЛЕ мої запитання:G t
Нехай загальна сума дисконтованих винагород за часом буде:
t
G t = R t + 1 + γ R t + 2 + γ 2 R t + 3 + . . .
Значення корисності старту в стані, в момент часу, еквівалентно очікуваній сумі
дисконтованих винагород виконуючої політики починаючи з стану далі.
За визначенням За законом лінійності
Законом відs
R
U π ( S t = s ) = E π [ G t | S t = s ]
= Е π [ ( R T + 1 + γ R T + 2 + γ 2 R T + 3 + . . . ) | S т = и ]
= Е π [ ( R T + 1 + γ ( R T + 2 + γ R T + 3 + . . .) ) | S t = s ]
= E π [ ( R t + 1 + γ ( G t + 1 ) ) | S t = s ]
= E π [ R t + 1 | S t = s ] + γ E π [ G t + 1 | S t = s ]
= E π [ R t + 1 | S t = s ] + γ E π [ E π ( G t + 1 | S t + 1 = s ′ ) | S t = s ] = E π [ R t + 1 | S t = s ] + γ E π [ U
π ( S t + 1 = s ′ ) | S t = s ] U π = E π [ R t + 1 + γ U π ( S t + 1 = s ′ ) | S t = s ]
Якщо припустити, що процес задовольняє властивість Маркова:
ймовірність, що закінчується в стані , починаючи зі стану і вживаючи дії ,
і
винагорода закінчується в стані , починаючи зі стану і вживаючи дії ,
P r
P r ( s ′ | s , a ) = P r ( S t + 1 = s ′ , S t = s , A t = a )
R
R ( s , a , s ′ ) = [ R t + 1 | S т= s , A t = a , S t + 1 = s ′ ]
Тому ми можемо переписати вище рівняння утиліти як,
= ∑ a π ( a | s ) ∑ s ′ P r ( s ′ | s , a ) [ R ( s , a , s ′ ) + γ U π ( S t + 1 = s ′ ) ]
Де;
: ймовірність вжити заходів коли в штаті для стохастичної політики. Для детермінованої політикиπ ( a | s ) a s ∑ a π ( a | s ) = 1
Ось мій доказ. Він заснований на маніпулюванні умовними розподілами, що полегшує їх дотримання. Сподіваюся, що цей вам допоможе.
v π ( s )= E [ G t | S t = s ]= E [ R t + 1 + γ G t + 1 | S t = s ]= ∑ s ′ ∑ r ∑ g t + 1 ∑ a p ( s ′ , r , g t + 1 , a | s ) ( r + γ g t + 1 )= ∑ a p ( a | s ) ∑ s ′ ∑ r ∑ g t + 1 p ( s ′ , r , g t + 1 | a , s ) ( r + γ g t + 1 )= ∑ a p ( a | s ) ∑ s ′ ∑ r ∑ g t + 1 p ( s ′ , r | a , s ) p ( g t + 1 | s ′ , r , a , s ) ( r + γ g t + 1 )Зауважимо, що p ( g t + 1 | s ′ , r , a , s ) = p ( g t + 1 | s ′ ) за припущенням MDP= ∑ a p ( a | s ) ∑ s ′ ∑ r p ( s ′ , r | a , s ) ∑ g t + 1 p ( g t + 1 | s ′ ) ( r + γ g t + 1 )= ∑ a p ( a | s ) ∑ s ′ ∑ r p ( s ′ , r | a , s ) ( r + γ ∑ g t + 1 p ( g t + 1 | s ′ ) g t + 1 )= ∑ a p ( a | s ) ∑ s ′ ∑ r p ( s ′ , r | a , s ) ( r + γ v π ( s ′ ) )
Що з наступним підходом?
v π ( s )= E π [ G t ∣ S t = s ]= E π [ R t + 1 + γ G t + 1 ∣ S t = s ]= ∑ a π ( a ∣ s ) ∑ s ′ ∑ r p ( s ′ , r ∣ s , a ) ⋅E π [ R t + 1 + γ G t + 1 ∣ S t = s , A t + 1 = a , S t + 1 = s ′ , R t + 1 = r ]= ∑ a π ( a ∣ s ) ∑ s ′ , r p ( s ′ , r ∣ s , a ) [ r + γ v π ( s ′ ) ] .
Суми вводяться для отримання , та з . Адже можливі дії та можливі наступні стани можуть бути. За таких додаткових умов лінійність очікування веде до результату майже безпосередньо.a s ′ r s
Я не впевнений, наскільки суворий мій аргумент математично. Я відкритий для вдосконалень.
Це лише коментар / доповнення до прийнятої відповіді.
Мене збентежило те, що застосовується закон загального очікування. Я не думаю, що тут може допомогти основна форма закону загальних очікувань. Тут насправді потрібен варіант цього.
Якщо є випадковими змінними і припускаючи, що всі очікування існують, то має місце така ідентичність:X , Y , Z
Е [ X | Y ] = E [ E [ X | Y , Z ] | Y ]
У цьому випадку , і . ПотімX = G t + 1
E [ G t + 1 | S t = s ] = E [ E [ G t + 1 | S t = s , S t + 1 = s ′ | S t = s ]
Звідти можна було прослідкувати решту доказів з відповіді.
E π (⋅)ππ(a | s)as
Схоже, , нижній регістр, замінює , випадкову змінну. Друге очікування замінює нескінченну суму, щоб відобразити припущення, що ми продовжуємо слідувати для всіх майбутніх . - це очікувана негайна винагорода на наступному етапі часу; Друге очікування-який стає це очікуване значення наступного стану, зважених за ймовірністю намотування в стан , взявши з .r R
Таким чином, очікування враховує ймовірність політики, а також функції переходу та винагороди, виражені разом як .p ( s ′ , r | s , a )
незважаючи на те, що правильна відповідь вже надіслана і пройшов деякий час, я вважав, що наступний покроковий посібник може бути корисним:
За лінійністю очікуваного значення ми можемо розділити
в і .
Я накресліть кроки лише для першої частини, оскільки друга частина слідує тими ж кроками, що поєднуються із Законом про сукупні очікування.E [ R t + 1 + γ E [ G t + 1 | S t = s ] ]
E [ R t + 1 | S t = s ]= ∑ r r P [ R t + 1 = r | S t = s ]= ∑ a ∑ r r P [ R t + 1 = r , A t = a | S t = s ](III)= ∑ a ∑ r r P [ R t + 1 = r | A t = a , S t = s ] P [ A t = a | S t = s ]= ∑ s′ ∑a ∑ rrP[S t + 1 =s′ ,R t + 1 =r| At=a,St=s]P[At=a| St=s]= ∑ a π ( a | s ) ∑ s′ ,Rp(s′ ,R| s,а)r
Тоді як (III) має форму:
П [ А , В | C ]= P [ A , B , C ]P [ C ]= P [ A , B , C ]P [ C ] P[B,C]P [ B , C ]= P [ A , B , C ]P [ B , C ] P[B,C]P [ C ]= Р [ А | B , C ] P [ B | C ]
Я знаю, що вже є прийнята відповідь, але я хочу надати більш конкретний вихід. Я також хотів би зазначити, що хоча трюк @ Jie Shi дещо має сенс, але мені це стає дуже незручно :(. Нам потрібно врахувати часовий вимір, щоб зробити цю роботу. І важливо зазначити, що очікування насправді є взято на весь нескінченний горизонт, а не просто над і . Припустимо, ми починаємо з (насправді, деривація однакова незалежно від часу початку; я не хочу забруднювати рівняння з іншим підписним )
s
На цьому етапі, я вважаю, більшість із нас уже повинні мати на увазі, як вищезазначене призводить до остаточного вираження - нам просто потрібно застосовувати правило суми-продукту ( ) кропітко . Застосуємо закон лінійності очікування до кожного терміна всередині
Частина 1
Σ 0 π(0|S0) Е 1 , . . . Т Σ їв 1 , . . . з Т Σ г 1 , . . . r T ( tT - 1 ∏ t = 0 π(a t + 1 |s t + 1 )p(s + 1 , r t + 1 | s t , a t )× r 1 )
Ну це досить тривіально, всі ймовірності зникають (насправді сума до 1), крім тих, що стосуються . Тому маємо
r 1
Частина 2
Здогадайтеся, ця частина є ще більш тривіальною - вона передбачає лише перестановку послідовності підсумовування.
Σ 0 π(0|S0) Е 1 , . . . Т Σ їв 1 , . . . з Т Σ г 1 , . . . r T ( T - 1 ∏ t = 0 π(a t + 1 |s t + 1 )p(st + 1 , r t + 1 | s t , a t ) )= Σ 0 π ( 0 | ів 0 ) Σ s 1 , R 1 р ( з 1 , г 1 | ів 0 , а 0 ) ( Σ 1 π ( 1 | ів 1 ) Е 2 , . . . Т Σ s 2 , . . . зТ Σ г 2 ,. . . r T ( T - 2 ∏ t=0t+2|st+1,at+1))) π(a t + 2 |s t + 2 )p(s t + 2 ,r
І Еврика !! ми відновимо рекурсивну схему в бік великих дужок. Об’єднаємо його з , і отримаємо
і частина 2 стає
γ ∑ T - 2 t = 0 γ t r t + 2
∑ a 0 π(a0|s0) ∑ s 1 , r 1 p(s1,r1|s0,a0)×γv π (s1)
Частина 1 + Частина 2
v π ( s 0 ) = ∑ a 0 π ( a 0 | s 0 ) ∑ s 1 , r 1 p ( s 1 , r 1 | s 0 , a 0 ) × ( r 1 + γ v π ( s 1 ) )
А тепер, якщо ми можемо підтягнути часовий вимір та відновити загальні рекурсивні формули
v π ( s ) = ∑ a π ( a | s ) ∑ s ′ , r p ( s ′ , r | s , a ) × ( r + γ v π ( s ′ ) )
Підсумкове зізнання, я сміявся, коли побачив, як люди вище згадують про використання закону загального сподівання. Так ось я
На це питання вже існує дуже багато відповідей, але більшість стосується кількох слів, що описують, що відбувається в маніпуляціях. Я думаю, що я відповім на це набагато більше слів. Починати,
G t ≐ T ∑ k = t + 1 γ k - t - 1 R k
визначається в рівнянні 3.11 Саттона і Барто, з постійним коефіцієнтом дисконтування і ми можемо мати або , але не обидва. Оскільки винагорода, , є випадковими змінними, так і оскільки це лише лінійна комбінація випадкових змінних.0 ≤ γ ≤ 1
v π ( s )≐ E π [ G t ∣ S t = s ]= E π[ R t + 1 + γ G t + 1 ∣ S t = s ]= E π [ R t + 1 | S t = s ] + γ E π [ G t + 1 | S t = s ]
Цей останній рядок випливає з лінійності значень очікування. - це винагорода, яку отримує агент після вступу в дію на етапі часу . Для простоти я припускаю, що він може приймати кінцеву кількість значень . R t + 1
Робота над першим терміном. Словом, мені потрібно обчислити значення очікування враховуючи, що ми знаємо, що поточний стан є . Формула для цього єR t + 1
E π [ R t + 1 | S t = s ] = ∑ r ∈ R rp(r | s).
Іншими словами, ймовірність появи винагороди залежить від стану ; різні держави можуть мати різну винагороду. Цей розподіл є граничним розподілом розподілу, який також містив змінні і , дію, зроблену в момент і стан в момент після дії відповідно:r
p ( r | s ) = ∑ s ′ ∈ S ∑ a ∈ A p ( s ′ , a , r | s ) = ∑ s ′ ∈ S ∑ a ∈ A π ( a | s ) p ( s ′ , r | a , s ) .
Де я використав , дотримуючись конвенції книги. Якщо ця остання рівність є заплутаною, забудьте про суми, придушіть (ймовірність тепер виглядає як спільна ймовірність), використовуйте закон множення і, нарешті, введіть умову на у всіх нових умовах. Зараз легко зрозуміти, що перший термін єπ ( a | s ) ≐ p ( a | s )
E π [ R t + 1 | S t = s ] = ∑ r ∈ R ∑ s ′ ∈ S ∑ a ∈ A rπ(a | s)p( s ′ ,r | a,s),
по мірі необхідності. Про другий член, де я припускаю, що - випадкова величина, яка приймає кінцеву кількість значень . Як і перший термін:G t + 1
E π [ G t + 1 | S t = s ] = ∑ g ∈ Γ gp(g | s).( ∗ )
Ще раз я "не маргіналізую" розподіл ймовірностей шляхом написання (знову закон множення)
р ( г | с )= ∑ r ∈ R ∑ s ′ ∈ S ∑ a ∈ A p ( s ′ , r , a , g | s ) = ∑ r ∈ R ∑ s ′ ∈ S ∑ a ∈ A p ( g | s ′ , r , a , s ) p ( s ′ , r ,а | з )= ∑ r ∈ R ∑ s ′ ∈ S ∑ a ∈ A p ( g | s ′ , r , a , s ) p ( s ′ , r | a , s ) π ( a | s )= ∑ r ∈ R ∑ s ′ ∈ S ∑ a ∈ A p ( g | s ′ , r , a , s ) p ( s ′ , r | a , s ) π ( a | s )= ∑ r ∈ R ∑ s ′ ∈ S ∑ a ∈ A p ( g | s ′ ) p ( s ′ , r | a , s ) π ( a | s )( ∗ ∗ )
Останній рядок там випливає із власності Марковія. Пам'ятайте, що - це сума всіх майбутніх (дисконтованих) нагород, які отримує агент після стану . Властивість Марковія полягає в тому, що процес не має пам'яті стосовно попередніх станів, дій та винагород. Майбутні дії (і винагороди, які вони отримують) залежать лише від стану, в якому вживаються дії, тому , за припущенням. Добре, тож другий термін у доказі заразG t + 1
γ E π [ G t + 1 | S t = s ]= γ ∑ g ∈ Γ ∑ r ∈ R ∑ s ′ ∈ S ∑ a ∈ A g p ( g | s ′ ) p ( s ′ , r | a , s ) π ( a | s )= γ ∑ r ∈ R ∑ s ′ ∈ S ∑ a ∈ A E π [ G t + 1 | S t + 1 = s ′ ] p ( s ′ , r | a , s ) π ( a | s )= γ ∑ r ∈ R ∑ s ′ ∈ S ∑ a ∈ A v π ( s ′ ) p ( s ′ , r | a , s ) π ( a | s )
як потрібно, ще раз. Поєднання двох термінів завершує доказ
v π ( s )≐ Е π [ G t ∣ S t = s ]= ∑ a ∈ A π ( a | s ) ∑ r ∈ R ∑ s ′ ∈ S p ( s ′ , r | a , s ) [ r + γ v π ( s ′ ) ] .
ОНОВЛЕННЯ
Я хочу розглянути питання про те, що може бути схожим на хитрості рук у походженні другого терміна. У рівнянні, позначеному символом , я використовую термін а потім пізніше в рівнянні, позначеному я стверджую, що не залежить від , аргументуючи властивість Маркова. Отже, ви можете сказати, що якщо це так, то . Але це неправда. Я можу взяти тому що ймовірність зліва від цього твердження говорить про те, що це ймовірність обумовлена , , , і( ∗ )
Якщо цей аргумент не переконує вас, спробуйте обчислити, що таке :р ( г )
р ( г )= ∑ s ′ ∈ S p ( g , s ′ ) = ∑ s ′ ∈ S p ( g | s ′ ) p ( s ′ )= ∑ s ′ ∈ S p ( g | s ′ ) ∑ s , a , r p ( s ′ , a , r , s )= ∑ s ′ ∈ S p ( g | s ′ ) ∑ s , a , r p ( s ′ , r | a , s ) p ( a , s )= ∑ s ∈ S p ( s ) ∑ s ′ ∈ S p ( g | s ′ ) ∑ a , r p ( s ′ , r | a , s ) π ( a | s )≐ ∑ s ∈ S p ( s ) p ( g | s ) = ∑ s ∈ S p ( g , s ) = p ( g ) .
Як видно в останньому рядку, не вірно, що . Очікуване значення залежить від того, у якому стані ви починаєте (тобто ідентифікація ), якщо ви не знаєте чи не припускаєте стан .p ( g | s ) = p ( g )