Запитання з тегом «temporal-difference»

2
Коли методи Монте-Карло віддають перевагу тимчасовим різницям?
Останнім часом я багато займався дослідженнями в навчанні зміцнення. Я слідував за навчанням зміцнення Саттона і Барто : Вступ до більшості цього. Я знаю, що таке процеси прийняття рішень Маркова та як навчання динамічного програмування (DP), Монте-Карло та часової різниці (DP) можна їх вирішити. Проблема у мене в тому , …
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.