Штучний інтелект policy-gradients

Яке співвідношення між методами Q-навчання та градієнтами політики?

Наскільки я розумію, Q-навчання та градієнти політики (PG) - це два основні підходи, що використовуються для вирішення проблем RL. У той час як Q-навчання має на меті передбачити винагороду за певну дію, здійснену в певному стані, градієнти політики безпосередньо передбачають саму дію. Однак обидва підходи здаються мені однаковими, тобто прогнозування …

21 reinforcement-learning q-learning policy-gradients comparison

Запитання з тегом «policy-gradients»