Чому ставка дисконтування в алгоритмі REINFORCE з’являється двічі?


11

Я читав книгу Підкріплення навчання: вступ Річарда С. Саттона та Ендрю Г. Барто (повний проект, 5 листопада 2017 р.).

На сторінці 271 представлений псевдокод епізодичного методу "Градієнт політика Монте-Карло". Дивлячись на цей псевдо-код, я не можу зрозуміти, чому здається, що дисконтна ставка з’являється 2 рази, один раз у стані оновлення та вдруге всередині повернення. [Дивіться малюнок нижче]

введіть тут опис зображення

Здається, що повернення для етапів після кроку 1 - це лише урізання повернення першого кроку. Крім того, якщо ви подивитесь лише на одну сторінку вище в книзі, ви знайдете рівняння з лише 1 ставкою дисконту (тієї, що знаходиться у звороті).

Чому тоді, схоже, псевдокод відрізняється? Я здогадуюсь, що я щось нерозумію:

(13.6)θt+1 =˙ θt+αGtθπ(At|St,θt)π(At|St,θt).

Відповіді:


5

Коефіцієнт знижки з’являється двічі, і це правильно.

Це тому, що функція, яку ви намагаєтеся максимізувати в REINFORCE для епізодичної проблеми (приймаючи градієнт), є очікуваним поверненням із заданого (розповсюдження) стартового стану:

J(θ)=Eπ(θ)[Gt|St=s0,t=0]

Тому під час епізоду, коли ви вибираєте доходи , G 2 тощо, вони будуть менш актуальними для вирішуваної проблеми, зменшеної на коефіцієнт знижки вдруге, як ви зазначили. У крайньому випадку з епізодичною проблемою та γ = 0 тоді РЕЙНФОРС знайде лише оптимальну політику для першої дії.G1G2γ=0

Інші алгоритми, які працюють у безперервних задачах, такі як Actor-Critic, використовують різні склади для , тому не мають цього коефіцієнта γ t .J(θ)γt


5

Відповідь Ніла вже дає певну інтуїцію щодо того, чому псевдокод (з додатковим терміном) правильний.γt

Я просто хотів би додатково уточнити, що ви, здається, нічого не розумієте, Рівняння (13.6) у книзі дійсно відрізняється від псевдокоду .

Зараз у мене немає видання книги, про яку ви згадали тут, але у мене є пізніший проект від 22 березня 2018 року, і текст на цю конкретну тему здається схожим. У цьому виданні:

  • У кінці сторінки 326 чітко зазначається, що вони будуть вважати у своєму доказуванні теореми про градієнт політики.γ=1
  • Цей доказ врешті-решт призводить до того ж рівняння (13.6) на сторінці 329.
  • γ=1
  • γ<1

2
Дякую. Пояснення вашого третього пункту бракувало в проекті 2017 року.
Дієго Ореллана

2
@DiegoOrellana Я більше не можу знайти посилання на чернетку 22 березня, але, здається, ще пізніший проект (не можу знайти зазначену дату) тут . Ця версія насправді має вигадливу обкладинку, тому це може бути навіть остаточна версія, а не чернетка. Якщо посилання дійсно ламаються в майбутньому, я підозрюю , що нова посилання буде доступна тут .
Денніс Сомерс

3

Це тонке питання.

Якщо ви подивитеся на алгоритм A3C в оригінальному документі (стор.4 та додаток S3 до псевдокоду), їх алгоритм акторсько-критичного характеру (той самий алгоритм як епізодичні, так і тривалі проблеми) вимикається фактором гамми відносно актора, критичний псевдокод для епізодичних проблем у книзі Саттон і Барто (с.332 видання http://incompleteideas.net/book/the-book.html за січень 2019 року ). У книзі «Саттон і Барто» є додаткова «перша» гамма, як зазначено на вашому малюнку. Отже, чи книга, чи папір A3C помиляються? Не зовсім.

Ключ знаходиться на с. 199 книги Саттона і Барто:

Якщо існує дисконтування (гамма <1), це слід трактувати як форму припинення, що може бути здійснено просто шляхом включення коефіцієнта у другий термін (9.2).

Тонке питання полягає в тому, що існує дві інтерпретації гамми фактора дисконтування:

  1. Мультиплікативний фактор, який надає меншу вагу віддаленим майбутнім нагородам.
  2. Ймовірність, 1 - гамма, що змодельована траєкторія помилково припиняється в будь-який момент часу. Таке тлумачення має сенс лише для епізодичних випадків, а не для продовжуваних випадків.

Літеральна реалізація:

  1. Просто помножте майбутні винагороди та пов'язані з ними кількості (V або Q) у майбутньому на гамму.
  2. Моделюйте деякі траєкторії та випадково припиніть (1 - гама) їх на кожному кроці. Припинені траєкторії не дають негайної чи майбутньої винагороди.

Гlnπ(а|с)

γ2Гlnπ(а|с)0,81Гlnπ(а|с)

Glnπ(a|s)Г

Ви можете вибрати будь-яку інтерпретацію гамми, але потрібно пам’ятати про наслідки алгоритму. Я особисто вважаю за краще дотримуватися інтерпретації 1 тільки тому, що це простіше. Тому я використовую алгоритм у папері A3C, а не в книзі Саттона і Барто.

Ваше запитання стосувалося алгоритму REINFORCE, але я обговорював актора-критика. У вас точно такий же питання, що стосується двох інтерпретацій гами та додаткової гами в системі REINFORCE.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.