Яке співвідношення між методами Q-навчання та градієнтами політики?


21

Наскільки я розумію, Q-навчання та градієнти політики (PG) - це два основні підходи, що використовуються для вирішення проблем RL. У той час як Q-навчання має на меті передбачити винагороду за певну дію, здійснену в певному стані, градієнти політики безпосередньо передбачають саму дію.

Однак обидва підходи здаються мені однаковими, тобто прогнозування максимальної винагороди за дію (Q-навчання) еквівалентно передбаченню ймовірності вжити дії безпосередньо (PG). Чи є різниця в способі повернення збитків?

Відповіді:


20

Однак обидва підходи здаються мені однаковими, тобто прогнозування максимальної винагороди за дію (Q-навчання) еквівалентно передбаченню ймовірності вжити дії безпосередньо (PG).

Обидва методи теоретично керуються конструкцією Марківського рішення , і в результаті використовують подібні позначення та поняття. Крім того, у простих розв’язуваних середовищах слід очікувати, що обидва способи призведуть до однакових - або принаймні еквівалентних - оптимальних політик.

Однак вони насправді різні всередині. Найбільш фундаментальні відмінності між підходами полягають у тому, як вони підходять до вибору дій, як під час навчання, так і як результат (вивчена політика). У Q-навчанні мета полягає в тому, щоб навчитися єдиному детермінованому дії з дискретного набору дій шляхом знаходження максимального значення. Завдяки градієнтам політики та іншим прямим пошуком політики, мета полягає в тому, щоб вивчити карту від стану до дії, яка може бути стохастичною і працює в просторах дії безперервної дії.

Як результат, методи градієнта політики можуть вирішити проблеми, які не можуть:

  • Великий і безперервний простір дій. Однак, використовуючи методи, що базуються на цінностях, це все ж можна порівняти дискретизацією - і це не поганий вибір, оскільки функція відображення в градієнті політики повинна бути певним наближенням на практиці.

  • Стохастична політика. Метод, що ґрунтується на цінності, не може вирішити середовище, де оптимальна політика стохастична, що вимагає певних імовірностей, таких як "Ножиці / Папір / Камінь". Це тому, що в Q-навчанні немає навчальних параметрів, які керують ймовірністю дії, формулювання проблеми в навчанні ТД передбачає, що детермінований агент може бути оптимальним.

Однак ціннісні методи, такі як Q-навчання, мають і деякі переваги:

  • Простота. Ви можете реалізувати функції Q як прості дискретні таблиці, і це дає певні гарантії конвергенції. Немає табличних версій градієнта політики, оскільки вам потрібна функція відображенняp(ас,θ) який також повинен мати плавний градієнт відносно θ.

  • Швидкість. Методи навчання ТД, що завантажуються, часто набагато швидше засвоїти політику, ніж методи, які повинні суто вибирати з навколишнього середовища, щоб оцінити прогрес.

Є й інші причини, чому ви можете скористатися тим чи іншим підходом:

  • Ви можете дізнатися передбачуваний прибуток під час запуску процесу, щоб допомогти іншим процесам планування, пов'язаним з агентом.

  • Представлення проблеми в державі легше піддається або функції значення, або функції політики. Ціннісна функція може виявитися дуже простою для держави, а політика дуже складною і важкою для засвоєння, або навпаки .

Деякі найсучасніші вирішувачі RL фактично використовують обидва підходи разом, наприклад Actor-Critic. Це поєднує в собі сильні сторони та методи градієнта політики.


Що ви маєте на увазі, говорячи про те, що актор-критик поєднує силу обох методів? Наскільки я розумію, актор оцінює найкращі дії, які слід здійснити, спираючись на стан, а критик оцінює цінність цієї держави, а потім подає нагороду актору. Трактування їх як єдиного підрозділу "Політика" все ще виглядає як градієнт політики. Чому це насправді як Q-навчання?
Гульзар

1
@Guizar: Критик вчиться, використовуючи метод, заснований на цінності (наприклад, Q-навчання). Отже, в цілому актор-критик - це поєднання методу вартості та методу градієнта політики, і він отримує вигоду від поєднання. Одне помітне поліпшення порівняно з "ванільним" PG полягає в тому, що градієнти можна оцінювати на кожному кроці, а не в кінці кожного епізоду. Якщо ви шукаєте більш детальну відповідь на цю тему, вам слід задати питання на сайті.
Ніл Слейтер

@Guizar: Насправді подряпини (наприклад, Q-навчання), коли я плутаюсь між перевагою актора-критика (який налаштовує базову лінію на основі значень дій) та критиком, який зазвичай є більш простим значенням держави. Однак решта мого опису все-таки однакова, критик зазвичай оновлюється за допомогою методів TD на основі цінностей, прикладом яких є вивчення Q.
Ніл Слейтер
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.