2
Чому базовий рівень залежить від стану в певний час непідвладного?
У робототехніці для пошуку схеми управління роботом використовується техніка навчання підкріплення. На жаль, більшість методів градієнта політики є статистично упередженими, що може привести робота в небезпечну ситуацію, див. Сторінку 2 у « Ян Петерс та Стефан Шаль»: Підсилення навчання моторних навичок градієнтами політики, 2008 Завдяки руховому примітивному навчанню можна подолати …