Прочитавши досягнення глибокого розуму google в іграх Atari , я намагаюся зрозуміти q-learning та q-мережі, але мене трохи збентежило. Плутанина виникає в понятті коефіцієнта дисконтування. Короткий підсумок того, що я розумію. Для оцінки значення оптимального очікуваного значення дії використовується глибока згорткова нейронна мережа. Мережа повинна мінімізувати функцію втрат де E s ′ [ y | s , a ] є E [ r + γ m a x a ′ Q ( s ′ , a ′ ; θ - i ) | s,a] деQ- сумарне значення балу, аr- значення балу для вибору дії. s,aі s
З математичної точки зору є коефіцієнтом дисконтування і являє собою ймовірність досягти стану s ' зі стану s .