Чому базовий рівень залежить від стану в певний час непідвладного?


9

У робототехніці для пошуку схеми управління роботом використовується техніка навчання підкріплення. На жаль, більшість методів градієнта політики є статистично упередженими, що може привести робота в небезпечну ситуацію, див. Сторінку 2 у « Ян Петерс та Стефан Шаль»: Підсилення навчання моторних навичок градієнтами політики, 2008

Завдяки руховому примітивному навчанню можна подолати проблему, оскільки оптимізація параметрів градієнта політики спрямовує кроки навчання до мети.

цитата: "Якщо оцінка градієнта є неупередженою, а темпи навчання відповідають сумі (a) = 0, процес навчання гарантовано збільшиться принаймні до локального мінімуму [...] Тому нам потрібно оцінювати градієнт політики лише за отриманими даними під час виконання завдання. ”(Сторінка 4 того ж паперу)

У домашньому завданні для класу Berkeley RL клас 1 Проблема 1 просить показати, що градієнт політики все ще є неупередженим, якщо віднімання базової лінії є функцією держави в кроці часу t.

θt=1TE(st,at)p(st,at)[b(st)]=0

Я борюся за те, яким може бути перший крок такого доказу. Чи може хтось вказати мені в правильному напрямку? Моя початкова думка полягала в тому, щоб якось використати закон повного очікування, щоб умовити очікування b (st) на T, але я не впевнений. Спасибі заздалегідь :)

посилання на оригінал png рівняння


Ласкаво просимо до SE: AI! (Я взяв на себе сміття перетворити рівняння в MathJax. Оригінал .png пов'язаний внизу.)
DukeZhou

2
Не дуже багато часу, щоб записати точні рівняння та відформатувати його (можливо, пізніше, якщо на нього все ще не відповіли) з LaTeX, але ось підказка. Ви хочете, щоб сума не залежала від політики, щоб похідна була дорівнює 0. Отже, ви якось намагаєтеся висловити речі, використовуючи політику p (s, a). Відповідь btw також можна знайти в книзі введення RL Intro Саттона в розділі градієнта політики.
Хай Нгуен

1
Дуже дякую! Я буду використовувати цей підказку для початку, а також подякую вам за те, що ви розповіли про те, що перебуваєте в Sutton RL. Я читаю цю книгу, і вона цілком відмінна!
Лаура С

@LauraC якщо ви знайдете відповідь раніше, будь ласка, поверніться та опублікуйте тут як офіційну відповідь (людям це питання напевно подобається :)
DukeZhou

Я додаю інформацію про контекст для запитання.
Мануель Родрігес

Відповіді:


7

Використовуючи закон повторених очікувань, слід:

θt=1TE(st,at)p(st,at)[b(st)]=θt=1TEstp(st)[Eatπθ(at|st)[b(st)]]=

написаний інтегралами і переміщення градієнта всередині (лінійність), яке ви отримуєте

=t=1Tstp(st)(atθb(st)πθ(at|st)dat)dst=

тепер можна рухатися θ (завдяки лінійності) та b(st) (не залежить від at) утворюють внутрішній інтеграл із зовнішнім:

=t=1Tstp(st)b(st)θ(atπθ(at|st)dat)dst=

πθ(at|st) є функцією (умовної) щільності ймовірності, тому інтегрується над усіма at для заданого стаціонарного стану st дорівнює 1:

=t=1Tstp(st)b(st)θ1dst=

Тепер θ1=0, що завершує доказ.


1

Виявляється , що домашнє завдання з -за два дні до написання цієї відповіді, але в разі , якщо вона по - , як і раніше актуальна в деякому роді, відповідні примітки класу (які були б корисно , якщо це передбачено в питанні разом з домашнім завданням) тут .

Перший екземпляр очікування, зроблений на учня, є: "Будь ласка, покажіть рівняння 12, використовуючи закон повторених очікувань, порушуючи Eτpθ(τ) шляхом від'єднання граничного стану дії від решти траєкторії. "Рівняння 12 це.

t=1TEτpθ(τ)[θlogπθ(at|st)(b(st))]=0

Нотатки класу ідентифікують πθ(at|st)як гранична держава-дія. Це не шуканий доказ, а послідовність алгебраїчних кроків, щоб здійснити розв'язку та показати ступінь досягнення незалежності граничного стану дії.

Ця вправа є підготовкою до наступного кроку домашнього завдання і спирається лише на огляд CS189, курсу «Введення Берклі в машинне навчання», який не містить Закон про загальне очікування у своєму навчальному програмі чи конспектах класу.

Вся відповідна інформація знаходиться у вищенаведеному посиланні для приміток до класу та вимагає лише проміжної алгебри.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.