Запитання з тегом «rl-an-introduction»

3
Чому ставка дисконтування в алгоритмі REINFORCE з’являється двічі?
Я читав книгу Підкріплення навчання: вступ Річарда С. Саттона та Ендрю Г. Барто (повний проект, 5 листопада 2017 р.). На сторінці 271 представлений псевдокод епізодичного методу "Градієнт політика Монте-Карло". Дивлячись на цей псевдо-код, я не можу зрозуміти, чому здається, що дисконтна ставка з’являється 2 рази, один раз у стані оновлення …
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.