Статистика та великі дані temporal-difference

Коли методи Монте-Карло віддають перевагу тимчасовим різницям?

Останнім часом я багато займався дослідженнями в навчанні зміцнення. Я слідував за навчанням зміцнення Саттона і Барто : Вступ до більшості цього. Я знаю, що таке процеси прийняття рішень Маркова та як навчання динамічного програмування (DP), Монте-Карло та часової різниці (DP) можна їх вирішити. Проблема у мене в тому , …

12 monte-carlo reinforcement-learning temporal-difference

Запитання з тегом «temporal-difference»