Штучний інтелект trpo

Як можна застосовувати градієнти політики у випадку безлічі безперервних дій?

Оптимізація політики довіреної регіональної політики (TRPO) та оптимізація максимальної політики (РРО) - два алгоритми передових градієнтів політики. При використанні однієї безперервної дії, як правило, ви використовуєте деякий розподіл ймовірностей (наприклад, Гаусса) для функції втрат. Приблизна версія: L(θ)=log(P(a1))A,L(θ)=log⁡(P(a1))A,L(\theta) = \log(P(a_1)) A, де є перевагою винагород, характеризується та що виходить з нейронної …

11 deep-learning reinforcement-learning trpo

Запитання з тегом «trpo»