Статистика та великі дані deep-rl

Чому Q-Learning використовує жадібний епсілон під час тестування?

У статті DeepMind про Deep Q-Learning для відеоігор Atari ( тут ) вони використовують метод жадібного епсилону для дослідження під час тренувань. Це означає, що коли в тренінгу вибирається дія, вона вибирається як дія з найвищим значенням q, або випадкова дія. Вибір між цими двома є випадковим і ґрунтується на …

18 machine-learning reinforcement-learning q-learning deep-rl

Запитання з тегом «deep-rl»