Яка різниця між позаполітичним та політичним навчанням?


78

Веб-сайт із штучним інтелектом визначає позаполітичне та політичне навчання наступним чином:

"Учасник, який перебуває поза політикою, дізнається значення оптимальної політики незалежно від дій агента. Q-навчання - це вчитель, який не відповідає політиці. Учень, який проводить політику, дізнається значення політики, яку проводить агент, включаючи етапи дослідження. . "

Я хотів би попросити ваших роз’яснень щодо цього, оскільки вони, схоже, не мають для мене ніякого значення. Обидва визначення здаються, що вони однакові. Те, що я насправді зрозумів, - це безмодельне та модельне навчання, і я не знаю, чи мають вони щось спільне з тими, про які йдеться.

Як можливо, що оптимальна політика засвоюється незалежно від дій агента? Чи не вивчена політика, коли агент виконує дії?


1
Я додав коментар до stackoverflow.com/questions/6848828/… , TL; частина NR також може бути корисною з розумінням.
zyxue

ось хороше пояснення nb4799.neu.edu/wordpress/?p=1850
Іван Куш

Я також хотів би додати, що існує позаполітичний варіант SARSA. У цьому документі ( cs.ox.ac.uk/people/shimon.whiteson/pubs/vanseijenadprl09.pdf ) буде розглянуто та вимкнено політику у вступі, а потім поясниться очікувана сарса. Також знайдіть очікувані градієнти політики (EPG), щоб знайти більш загальну теорію, яка поєднує два типи.
Джош Альберт

Відповіді:


93

Перш за все, немає причин, щоб агент мав робити жадібні дії ; Агенти можуть досліджувати або вони можуть слідувати варіантам . Це не те, що відокремлює політику від позаполітичного навчання.

Причиною того, що Q-навчання є позаполітичним, є те, що він оновлює свої Q-значення, використовуючи значення Q наступного стану с' та жадібну дію а' . Іншими словами, він оцінює повернення (загальна знижена майбутня винагорода) для пар державних дій, які припускають, що жадна політика дотримувалася, незважаючи на те, що вона не дотримується жадної політики.

Причина того, що SARSA відповідає політиці, полягає в тому, що вона оновлює свої Q-значення, використовуючи значення Q для наступного стану с' та поточну дію політики а . Він оцінює прибуток для пар державних дій, припускаючи, що поточна політика продовжує дотримуватися.

Відмінність зникає, якщо нинішня політика є жадібною політикою. Однак такий агент не був би гарним, оскільки він ніколи не досліджує.

Ви подивилися книгу, доступну безкоштовно в Інтернеті? Річард С. Саттон та Ендрю Г. Барто. Підсилення навчання: вступ. Друге видання, MIT Press, Кембридж, MA, 2018.


8
приємне пояснення! Ваш приклад Q-навчання краще сформульований у книзі Саттона, в якій сказано: " вивчена функція-значення, Q, безпосередньо наближає Q *, оптимальна функція-значення, незалежна від політики, що виконується. Це різко спрощує аналіз алгоритму та включення дострокових доказів конвергенції. Політика все ж має ефект, оскільки вона визначає, які пари стану та дії відвідуються та оновлюються ".
Ciprian Tomoiagă

3
Взагалі, я не вважаю Саттона і Барто зовсім читабельними. Я вважаю, що пояснення, які вони пропонують, не дуже зрозумілі. Я не впевнений, чому їхню книгу в усьому світі рекомендують
SN

@SN Для багатьох студентів, які навчаються на підкріпленні, Саттон і Барто - це перша книга, яку вони прочитали.
Ніл G

3
@JakubArnold оригінальна книга "Саттон і Барто" - це з 1998 року, і вона не охоплює глибокого підкріплення. У другому виданні згадуються лише такі речі, як AlphaGo, але в центрі уваги книги є більш класичні підходи. Якщо ви хочете отримати більше ресурсів RL, подивіться на цей список . Я пропоную відео Девіда Сілвера та книгу Путермана, оскільки вони доступніші. Для отримання більш теоретичного матеріалу рекомендую книги Берцекаса. Погляньте на веб-сайт Spinning Up щодо алгоритмів DRL та посилань на оригінальні статті.
Дуглас Де Ріццо Менегетті

1
@AlbertChen "Отже, в цьому випадку це залежить від дослідження чи ні": Ні, тому що обидва алгоритми досліджують. Різниця полягає в тому, як Q оновлюється.
Ніл Г

12

Політичні методи оцінюють цінність політики під час використання її для контролю.

У позаполітичних методах політика, що використовується для генерування поведінки, яка називається політикою поведінки , може бути не пов'язана з політикою, яка оцінюється та вдосконалюється, і називається політикою оцінювання .

Перевагою цього відокремлення є те, що політика оцінки може бути детермінованою (наприклад, жадібною), тоді як політика поведінки може продовжувати вибірку всіх можливих дій.

Докладніші відомості див. У розділах 5.4 та 5.6 книги « Підсилення навчання: вступ Барто та Саттона», перше видання.


7

Різниця між методами Off-Policy і On-policy полягає в тому, що, спочатку вам не потрібно дотримуватися жодної конкретної політики, ваш агент може навіть поводитися випадковим чином і, незважаючи на це, позаполітичні методи все ще можуть знайти оптимальну політику. З іншого боку, політичні методи залежать від використовуваної політики. У випадку Q-навчання, яке є позаполітичним, воно знайде оптимальну політику, незалежну від політики, яка використовується під час дослідження, однак це справедливо лише тоді, коли ви відвідуєте різні штати достатньо разів. Ви можете знайти в оригінальному документі від Уоткінса фактичний доказ, який показує це дуже приємне властивість Q-Learning. Однак існує компроміс, і це методи поза політикою, як правило, повільніше, ніж методи, що застосовуються в політиці. Ось посилання з іншими цікавими резюме властивостей обох типів методів


1
Методи поза політики не тільки повільніші, але й можуть бути нестабільними у поєднанні з завантажувальним завантаженням (тобто, як Q-навчання будує оцінки один від одного) та функціонують наближувачами (наприклад, нейронні мережі).
Ніл Слейтер

7

π
асπас


Q(с,а)ас
ππ(а|с)

Q(с,а)


Q(с,а)π
Q(с,а)

Q(с,а)Q(с,а)+α(r+γQ(с',а')-Q(с,а))а'π

Q(с,а)Q(с,а)+α(r+γмакса'Q(с',а')-Q(с,а))а'с'


1

З книги Саттона: "Політичний підхід у попередньому розділі насправді є компромісом. Він дізнається значення дій не для оптимальної політики, а для майже оптимальної політики, яка все ще досліджується. Більш прямим підходом є використання двох політик. , той, про який пізнають і який стає оптимальною політикою, і той, що є більш дослідним і використовується для формування поведінки. У цьому випадку ми кажемо, що навчання - це цільова політика за даними „o↵”, а загальний процес називається „o-policy learning”.


якщо ви дотримуєтесь цього опису, непросто сказати, чому Q-навчання поза політики
Альберт Чен
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.