Запитання з тегом «trpo»

1
Як можна застосовувати градієнти політики у випадку безлічі безперервних дій?
Оптимізація політики довіреної регіональної політики (TRPO) та оптимізація максимальної політики (РРО) - два алгоритми передових градієнтів політики. При використанні однієї безперервної дії, як правило, ви використовуєте деякий розподіл ймовірностей (наприклад, Гаусса) для функції втрат. Приблизна версія: L(θ)=log(P(a1))A,L(θ)=log⁡(P(a1))A,L(\theta) = \log(P(a_1)) A, де є перевагою винагород, характеризується та що виходить з нейронної …
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.