Значення коефіцієнта дисконтування на підкріплення


10

Прочитавши досягнення глибокого розуму google в іграх Atari , я намагаюся зрозуміти q-learning та q-мережі, але мене трохи збентежило. Плутанина виникає в понятті коефіцієнта дисконтування. Короткий підсумок того, що я розумію. Для оцінки значення оптимального очікуваного значення дії використовується глибока згорткова нейронна мережа. Мережа повинна мінімізувати функцію втрат де E s [ y | s , a ] є E [ r + γ m a x a Q ( s , a ; θ - i ) | s,a] деQ- сумарне значення балу, аr- значення балу для вибору дії. s,aі s

Li=Es,a,r[(Es[y|s,a]Q(s,a;θi))2]
Es[y|s,a]
E[r+γmaxaQ(s,a;θi)|s,a]
Qrs,a це відповідно стан і дія, що вибирається в момент t, а стан і дія в момент t ' . Θ - я суть ваги мережі на попередній ітерації. Γ є коефіцієнтом дисконтуванняякий враховує тимчасову різницю значеньпоказників. Я нижній індекс є тимчасовим кроком. Тут проблема полягає в тому, щоб зрозуміти, чому γ не залежить від θ .s,attθiγiγθ

З математичної точки зору є коефіцієнтом дисконтування і являє собою ймовірність досягти стану s ' зі стану s .γss

Qγγ=1

Відповіді:


6

ssp(s|s,a)γyssγ<1

Я пропоную вам прочитати книгу « Саттон і Барто» перед тим, як спробувати Deep-Q, щоб навчитися чистому навчанню зміцненню поза контекстом нейронних мереж, що може вас бентежити.


dc
Ev=i=1+γidc
d

dγ1γ=c
γgammaγ=ppt0γ1p1p=ττ
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.