Оптимізація політики довіреної регіональної політики (TRPO) та оптимізація максимальної політики (РРО) - два алгоритми передових градієнтів політики.
При використанні однієї безперервної дії, як правило, ви використовуєте деякий розподіл ймовірностей (наприклад, Гаусса) для функції втрат. Приблизна версія:
де є перевагою винагород, характеризується та що виходить з нейронної мережі, як у середовищі маятника тут: https://github.com/leomzhong/DeepReinforcementLearningCourse/blob/69e573cd88faec7e9cf900da8eeef08c57 /hw4/main.py .
Проблема полягає в тому, що я не можу знайти жодної статті про безперервні дії 2, використовуючи градієнти політики (не методи атрибутики-критики, які використовують інший підхід шляхом перенесення градієнта з Q-функції).
Чи знаєте ви, як це зробити за допомогою TRPO для двох безперервних дій у середовищі LunarLander ?
Чи правильний такий підхід для функції втрат градієнта політики?