1
Значення коефіцієнта дисконтування на підкріплення
Прочитавши досягнення глибокого розуму google в іграх Atari , я намагаюся зрозуміти q-learning та q-мережі, але мене трохи збентежило. Плутанина виникає в понятті коефіцієнта дисконтування. Короткий підсумок того, що я розумію. Для оцінки значення оптимального очікуваного значення дії використовується глибока згорткова нейронна мережа. Мережа повинна мінімізувати функцію втрат де E …