3
Чому ставка дисконтування в алгоритмі REINFORCE з’являється двічі?
Я читав книгу Підкріплення навчання: вступ Річарда С. Саттона та Ендрю Г. Барто (повний проект, 5 листопада 2017 р.). На сторінці 271 представлений псевдокод епізодичного методу "Градієнт політика Монте-Карло". Дивлячись на цей псевдо-код, я не можу зрозуміти, чому здається, що дисконтна ставка з’являється 2 рази, один раз у стані оновлення …