1
Як можна застосовувати градієнти політики у випадку безлічі безперервних дій?
Оптимізація політики довіреної регіональної політики (TRPO) та оптимізація максимальної політики (РРО) - два алгоритми передових градієнтів політики. При використанні однієї безперервної дії, як правило, ви використовуєте деякий розподіл ймовірностей (наприклад, Гаусса) для функції втрат. Приблизна версія: L(θ)=log(P(a1))A,L(θ)=log(P(a1))A,L(\theta) = \log(P(a_1)) A, де є перевагою винагород, характеризується та що виходить з нейронної …