Як можна застосовувати градієнти політики у випадку безлічі безперервних дій?


11

Оптимізація політики довіреної регіональної політики (TRPO) та оптимізація максимальної політики (РРО) - два алгоритми передових градієнтів політики.

При використанні однієї безперервної дії, як правило, ви використовуєте деякий розподіл ймовірностей (наприклад, Гаусса) для функції втрат. Приблизна версія:

L(θ)=log(P(a1))A,

де є перевагою винагород, характеризується та що виходить з нейронної мережі, як у середовищі маятника тут: https://github.com/leomzhong/DeepReinforcementLearningCourse/blob/69e573cd88faec7e9cf900da8eeef08c57 /hw4/main.py .AP(a1)μσ2

Проблема полягає в тому, що я не можу знайти жодної статті про безперервні дії 2, використовуючи градієнти політики (не методи атрибутики-критики, які використовують інший підхід шляхом перенесення градієнта з Q-функції).

Чи знаєте ви, як це зробити за допомогою TRPO для двох безперервних дій у середовищі LunarLander ?

Чи правильний такий підхід для функції втрат градієнта політики?

L(θ)=(logP(a)+logP(a2))A

Відповіді:


6

Як ви вже говорили, дії, обрані Actor-Critic, зазвичай виходять із звичайного розподілу, і завдання агента - знайти відповідне середнє та стандартне відхилення на основі поточного стану. У багатьох випадках цього одного розподілу достатньо, оскільки потрібно лише 1 безперервна дія. Однак, оскільки домени, такі як робототехніка, стають все більш інтегрованими з AI, ситуація, коли потрібно 2 або більше безперервних дій, є все більшою проблемою.

Існує 2 рішення цієї проблеми: Перше і найпоширеніше - це те, що для кожної безперервної дії існує окремий агент, який вивчає власне одновимірне середнє і стандартне відхилення. Частина його стану включає дії інших агентів, щоб також дати контекст тому, що робить вся система. Ми зазвичай робимо це в моїй лабораторії, і ось документ, в якому описується такий підхід із трьома акторськими-критиковими агентами, які працюють разом над рухом роботизованої руки.

Другий підхід полягає в тому, щоб один агент знаходив багатоваріантний (зазвичай нормальний) розподіл політики. Хоча теоретично цей підхід міг би мати більш стислий розподіл політики шляхом "обертання" розподілу на основі матриці ко-дисперсії, це означає, що всі значення ко-дисперсійної матриці також повинні бути вивчені. Це збільшує кількість значень, які повинні бути засвоєні, щоб мати безперервних виходів від (середнє та stddev), до ( означає та матриця ко-дисперсії). Цей недолік зробив такий підхід не таким популярним у літературі.n2nn+n2nn×n

Це більш загальна відповідь, але має допомогти вам та оточуючим щодо пов'язаних з ними проблем.


1
Джаден дякую за чудову відповідь. 1. Я спробував багатоагентну архітектуру, але це не дуже ефективно. Значне більше часу займає конвергенція. 2. Зараз багатоваріантний розподіл здається і мені очевидним, дякую.
Евалдс Уртанс

1
Залежно від програми та архітектури (якщо це глибока мережа), ви можете змусити агентів використовувати функції низького рівня, а потім змусити їх розгалужуватися на свої власні функції значення. Крім того, наявність 1 критики та кількох акторів - це також спосіб збільшити архітектуру.
Яден Травник

На даний момент я хотів би застосувати ваші пропозиції до TRPO (лише методи градієнта політики), а не актор-критик. Я не дуже впевнений у перенесенні градієнта від критика до актора - у багатьох реалізаціях я бачив, що це виглядає так, що це не повинно працювати, навіть якщо воно зближається.
Евалдс Уртанс

1
Вибачте за це питання нооба: Як це застосовується в акторсько-критичних методах (де актор може виконувати кілька одночасних безперервних дій), коли актор виконує функцію політики та навчається методом градієнта політики? @JadenTravnik Чи можете ви поясніть це у відповіді під новим заголовком?
Гокул NC
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.