Штучний інтелект rl-an-introduction

Чому ставка дисконтування в алгоритмі REINFORCE з’являється двічі?

Я читав книгу Підкріплення навчання: вступ Річарда С. Саттона та Ендрю Г. Барто (повний проект, 5 листопада 2017 р.). На сторінці 271 представлений псевдокод епізодичного методу "Градієнт політика Монте-Карло". Дивлячись на цей псевдо-код, я не можу зрозуміти, чому здається, що дисконтна ставка з’являється 2 рази, один раз у стані оновлення …

11 reinforcement-learning algorithm rl-an-introduction reinforce

Запитання з тегом «rl-an-introduction»