Запитання з тегом «deep-rl»

4
Чому Q-Learning використовує жадібний епсілон під час тестування?
У статті DeepMind про Deep Q-Learning для відеоігор Atari ( тут ) вони використовують метод жадібного епсилону для дослідження під час тренувань. Це означає, що коли в тренінгу вибирається дія, вона вибирається як дія з найвищим значенням q, або випадкова дія. Вибір між цими двома є випадковим і ґрунтується на …
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.