Запитання з тегом «policy-gradients»

1
Яке співвідношення між методами Q-навчання та градієнтами політики?
Наскільки я розумію, Q-навчання та градієнти політики (PG) - це два основні підходи, що використовуються для вирішення проблем RL. У той час як Q-навчання має на меті передбачити винагороду за певну дію, здійснену в певному стані, градієнти політики безпосередньо передбачають саму дію. Однак обидва підходи здаються мені однаковими, тобто прогнозування …
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.