Коли вибрати SARSA vs. Q Learning


19

SARSA та Q Learning - це алгоритми навчання посилення, які працюють аналогічно. Найяскравіша відмінність полягає в тому, що SARSA проводить політику, а Q Learning - поза політикою. Правила оновлення такі:

Q Навчання:

Q(st,at)Q(st,at)+α[rt+1+γmaxaQ(st+1,a)Q(st,at)]

SARSA:

Q(st,at)Q(st,at)+α[rt+1+γQ(st+1,at+1)Q(st,at)]

де st,at і rt - стан, дія та винагорода на етапі часу t і γ - коефіцієнт знижки.

Вони в основному виглядають так само, за винятком того, що в SARSA ми вживаємо дійсних дій, а в Q Learning ми здійснюємо дії з найвищою нагородою.

Чи є теоретичні чи практичні умови, в яких слід віддавати перевагу одному перед іншим? Я бачу, що отримання максимуму у навчанні Q може бути дорогим і тим більше у просторах безперервних дій. Але чи є ще щось?


У просторах безперервної дії звичайні методи пошуку політики, такі як різні методи градієнта політики, зазвичай використовуються, оскільки - як ви зрозуміли - підтримка та оцінка дискретної функції значення для простору безперервної дії непрактична, особливо коли простір дії має багато вимірів (через прокляття розмірності ).
HelloGoodbye

Відповіді:


27

Вони в основному виглядають так само, за винятком того, що в SARSA ми вживаємо дійсних дій, а в Q Learning ми здійснюємо дії з найвищою нагородою.

Насправді в обох ви "приймаєте" фактичну єдину створену дію наступною. Під час навчання Q ви оновлюєте оцінку з максимальної оцінки можливих наступних дій, незалежно від того, яку дію ви здійснили. Хоча в SARSA, ви оновлюєте кошториси на основі та вживаєте однакових дій.at+1

Це, мабуть, те, що ви мали на увазі під "брати" у питанні, але в літературі вживання дії означає, що воно стає значенням, наприклад , і впливає на , .atrt+1st+1

Чи є теоретичні чи практичні умови, в яких слід віддавати перевагу одному перед іншим?

Q-навчання має такі переваги та недоліки порівняно з SARSA:

  • Q-навчання безпосередньо вивчає оптимальну політику, в той час як SARSA вивчає майже оптимальну політику, вивчаючи. Якщо ви хочете вивчити оптимальну політику за допомогою SARSA, вам потрібно буде визначитися зі стратегією розпаду у зеленому виборі дій, який може стати химерним гіперпараметром для настройки.ϵϵ

  • Q-навчання (і позаполітичне навчання в цілому) має вищу відмінність за вибіркою, ніж SARSA, і внаслідок цього може страждати від проблем, що зближуються. Це виявляється проблемою при навчанні нейронних мереж за допомогою Q-навчання.

  • SARSA наблизиться до конвергенції, що передбачає можливі штрафи за розвідувальні кроки, тоді як Q-навчання їх ігнорує. Це робить SARSA більш консервативним - якщо існує ризик великої негативної винагороди, близької до оптимального шляху, Q-навчання буде, як правило, викликати цю винагороду під час дослідження, тоді як SARSA буде намагатися уникати небезпечного оптимального шляху і лише повільно вчитися його використовувати при зменшенні параметрів розвідки. Класична проблема з іграшками, яка демонструє цей ефект, називається ходьбою по скелі .

На практиці останній пункт може мати велике значення, якщо помилки дорогі - наприклад, ви тренуєте робота не в симуляції, а в реальному світі. Ви можете віддати перевагу більш консервативному алгоритму навчання, який дозволяє уникнути високого ризику, якщо в роботі були пошкоджені реальний час та гроші, якщо робот був пошкоджений.

Якщо ваша мета - навчити оптимального агента в моделюванні, або в умовах низької вартості та швидко повторюваного середовища, то Q-навчання - хороший вибір, завдяки першому моменту (безпосередньо вивчайте оптимальну політику). Якщо ваш агент навчається в Інтернеті, і ви дбаєте про нагороди, здобуті під час навчання , то SARSA може бути кращим вибором.


Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.