Комп'ютерна наука reinforcement-learning

Значення коефіцієнта дисконтування на підкріплення

Прочитавши досягнення глибокого розуму google в іграх Atari , я намагаюся зрозуміти q-learning та q-мережі, але мене трохи збентежило. Плутанина виникає в понятті коефіцієнта дисконтування. Короткий підсумок того, що я розумію. Для оцінки значення оптимального очікуваного значення дії використовується глибока згорткова нейронна мережа. Мережа повинна мінімізувати функцію втрат де E …

10 artificial-intelligence neural-networks reinforcement-learning

Запитання з тегом «reinforcement-learning»