1
Яке співвідношення між методами Q-навчання та градієнтами політики?
Наскільки я розумію, Q-навчання та градієнти політики (PG) - це два основні підходи, що використовуються для вирішення проблем RL. У той час як Q-навчання має на меті передбачити винагороду за певну дію, здійснену в певному стані, градієнти політики безпосередньо передбачають саму дію. Однак обидва підходи здаються мені однаковими, тобто прогнозування …