Запитання з тегом «reinforcement-learning»

1
Значення коефіцієнта дисконтування на підкріплення
Прочитавши досягнення глибокого розуму google в іграх Atari , я намагаюся зрозуміти q-learning та q-мережі, але мене трохи збентежило. Плутанина виникає в понятті коефіцієнта дисконтування. Короткий підсумок того, що я розумію. Для оцінки значення оптимального очікуваного значення дії використовується глибока згорткова нейронна мережа. Мережа повинна мінімізувати функцію втрат де E …
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.