Значення коефіцієнта дисконтування на підкріплення

Прочитавши досягнення глибокого розуму google в іграх Atari , я намагаюся зрозуміти q-learning та q-мережі, але мене трохи збентежило. Плутанина виникає в понятті коефіцієнта дисконтування. Короткий підсумок того, що я розумію. Для оцінки значення оптимального очікуваного значення дії використовується глибока згорткова нейронна мережа. Мережа повинна мінімізувати функцію втрат де є де- сумарне значення балу, а- значення балу для вибору дії. і

L_{i} = E_{s, a, r} [(E_{s^{'}} [y | s, a] - Q (s, a; θ_{i}))^{2}]

$L_i=\mathbb{E}_{s,a,r}\left[(\mathbb{E}_{s'}\left[y|s,a\right]-Q(s,a;\theta_i))^2\right]$

E_{s^{'}} [y | s, a]

$\mathbb{E}_{s'}\left[y|s,a\right]$

E [r + γ m a x_{a^{'}} Q (s^{'}, a^{'}; θ_{i}^{-}) | s, a]

$\mathbb{E}\left[r+\gamma max_{a'} Q(s',a';\theta^-_i)\right|s,a]$

Q

$Q$

r

$r$

s, a

$s,a$

це відповідно стан і дія, що вибирається в момент

а стан і дія в момент

суть ваги мережі на попередній ітерації.

є коефіцієнтом дисконтуванняякий враховує тимчасову різницю значеньпоказників.

нижній індекс є тимчасовим кроком. Тут проблема полягає в тому, щоб зрозуміти, чому

не залежить від

s^{'}, a^{'}

$s',a'$

t

$t$

t^{'}

$t'$

θ_{i}^{-}

$\theta^-_i$

γ

$\gamma$

i

$i$

γ

$\gamma$

θ

$\theta$

З математичної точки зору є коефіцієнтом дисконтування і являє собою ймовірність досягти стану зі стану . $\gamma$ $s'$ $s$

$Q$ $\gamma$ $\gamma=1$

artificial-intelligence neural-networks reinforcement-learning

— emanuele
джерело

$s′$ $s$ $p(s'|s,a)$ $γ$ $y$ $s$ $s$ $γ < 1$

Я пропоную вам прочитати книгу « Саттон і Барто» перед тим, як спробувати Deep-Q, щоб навчитися чистому навчанню зміцненню поза контекстом нейронних мереж, що може вас бентежити.

— rcpinto
джерело

d

$d$

c

$c$

E v = \sum_{i = 1}^{+ \infty} γ^{i} d - c

$Ev=\sum_{i=1}^{+\infty} \gamma^i d -c$

d

$d$

d \frac{γ}{1 - γ} = c

$d\frac{\gamma}{1-\gamma}=c$

γ

$\gamma$

g a m m a

$gamma$

γ = p

$\gamma=p$

p

$p$

t

$t$

0 \leq γ \leq 1

$0\le \gamma \le 1$

\frac{p}{1 - p} = τ

$\frac{p}{1-p}=\tau$

τ

$\tau$