2
Коли методи Монте-Карло віддають перевагу тимчасовим різницям?
Останнім часом я багато займався дослідженнями в навчанні зміцнення. Я слідував за навчанням зміцнення Саттона і Барто : Вступ до більшості цього. Я знаю, що таке процеси прийняття рішень Маркова та як навчання динамічного програмування (DP), Монте-Карло та часової різниці (DP) можна їх вирішити. Проблема у мене в тому , …