У робототехніці для пошуку схеми управління роботом використовується техніка навчання підкріплення. На жаль, більшість методів градієнта політики є статистично упередженими, що може привести робота в небезпечну ситуацію, див. Сторінку 2 у « Ян Петерс та Стефан Шаль»: Підсилення навчання моторних навичок градієнтами політики, 2008
Завдяки руховому примітивному навчанню можна подолати проблему, оскільки оптимізація параметрів градієнта політики спрямовує кроки навчання до мети.
цитата: "Якщо оцінка градієнта є неупередженою, а темпи навчання відповідають сумі (a) = 0, процес навчання гарантовано збільшиться принаймні до локального мінімуму [...] Тому нам потрібно оцінювати градієнт політики лише за отриманими даними під час виконання завдання. ”(Сторінка 4 того ж паперу)
У домашньому завданні для класу Berkeley RL клас 1 Проблема 1 просить показати, що градієнт політики все ще є неупередженим, якщо віднімання базової лінії є функцією держави в кроці часу t.
Я борюся за те, яким може бути перший крок такого доказу. Чи може хтось вказати мені в правильному напрямку? Моя початкова думка полягала в тому, щоб якось використати закон повного очікування, щоб умовити очікування b (st) на T, але я не впевнений. Спасибі заздалегідь :)