Вони в основному виглядають так само, за винятком того, що в SARSA ми вживаємо дійсних дій, а в Q Learning ми здійснюємо дії з найвищою нагородою.
Насправді в обох ви "приймаєте" фактичну єдину створену дію наступною. Під час навчання Q ви оновлюєте оцінку з максимальної оцінки можливих наступних дій, незалежно від того, яку дію ви здійснили. Хоча в SARSA, ви оновлюєте кошториси на основі та вживаєте однакових дій.at+1
Це, мабуть, те, що ви мали на увазі під "брати" у питанні, але в літературі вживання дії означає, що воно стає значенням, наприклад , і впливає на , .atrt+1st+1
Чи є теоретичні чи практичні умови, в яких слід віддавати перевагу одному перед іншим?
Q-навчання має такі переваги та недоліки порівняно з SARSA:
Q-навчання безпосередньо вивчає оптимальну політику, в той час як SARSA вивчає майже оптимальну політику, вивчаючи. Якщо ви хочете вивчити оптимальну політику за допомогою SARSA, вам потрібно буде визначитися зі стратегією розпаду у зеленому виборі дій, який може стати химерним гіперпараметром для настройки.ϵϵ
Q-навчання (і позаполітичне навчання в цілому) має вищу відмінність за вибіркою, ніж SARSA, і внаслідок цього може страждати від проблем, що зближуються. Це виявляється проблемою при навчанні нейронних мереж за допомогою Q-навчання.
SARSA наблизиться до конвергенції, що передбачає можливі штрафи за розвідувальні кроки, тоді як Q-навчання їх ігнорує. Це робить SARSA більш консервативним - якщо існує ризик великої негативної винагороди, близької до оптимального шляху, Q-навчання буде, як правило, викликати цю винагороду під час дослідження, тоді як SARSA буде намагатися уникати небезпечного оптимального шляху і лише повільно вчитися його використовувати при зменшенні параметрів розвідки. Класична проблема з іграшками, яка демонструє цей ефект, називається ходьбою по скелі .
На практиці останній пункт може мати велике значення, якщо помилки дорогі - наприклад, ви тренуєте робота не в симуляції, а в реальному світі. Ви можете віддати перевагу більш консервативному алгоритму навчання, який дозволяє уникнути високого ризику, якщо в роботі були пошкоджені реальний час та гроші, якщо робот був пошкоджений.
Якщо ваша мета - навчити оптимального агента в моделюванні, або в умовах низької вартості та швидко повторюваного середовища, то Q-навчання - хороший вибір, завдяки першому моменту (безпосередньо вивчайте оптимальну політику). Якщо ваш агент навчається в Інтернеті, і ви дбаєте про нагороди, здобуті під час навчання , то SARSA може бути кращим вибором.