Що таке функція Q та яка функція V у навчанні посилення?


30

Мені здається, що функцію можна легко виразити функцією і тому функція видається мені зайвою. Однак я новачок у навчанні підкріплення, тож я здогадуюсь, що щось не так.VQV

Визначення

Q-і V-навчання в контексті процесів рішення Маркова . MDP представляє собою 5-кортеж (S,A,P,R,γ) з

  • S - це набір станів (як правило, кінцевих)
  • A - це сукупність дій (зазвичай кінцевих)
  • P(s,s,a)=P(st+1=s|st=s,at=a) - це ймовірність переходу зі стану s в стан s з дією a .
  • R(s,s,a)R - це негайна винагорода після переходу від стану до стану за дії . (Мені здається, це, як правило, має значення лише ).ssas
  • γ[0,1] називається коефіцієнтом дисконтування і визначає, чи орієнтується на негайну винагороду ( ), загальну винагороду ( ) або якусь компромісну діяльність.γ=0γ=1

Політикаπ , в відповідно до підкріпленням: Введення Саттон і Барто функція (це може бути імовірнісним).π:SA

За словами Маріо Martins слайдами , то V функція є

Vπ(s)=Eπ{Rt|st=s}=Eπ{k=0γkrt+k+1|st=s}
і функцією Q є
Qπ(s,a)=Eπ{Rt|st=s,at=a}=Eπ{k=0γkrt+k+1|st=s,at=a}

Мої думки

Функція V визначає очікуване загальне значення (не винагорода!) Стану s відповідно до політики π .

Функція Q визначає значення стану s та дії a відповідно до політики π .

Це означає, що

Qπ(s,π(s))=Vπ(s)

Правильно? То чому ми взагалі функцію значення? (Я думаю, я щось переплутав)

Відповіді:


15

Q-значення - це чудовий спосіб зробити дії явними, тому ви можете вирішувати проблеми, коли функція переходу недоступна (відсутня модель). Однак, коли ваш простір дій великий, речі не такі приємні, а значення Q не такі зручні. Подумайте про величезну кількість дій чи навіть безперервних просторів дій.

З точки зору вибірки, розмірність вища, ніж тому може отримати важче отримати достатню кількість зразків порівняно з . Якщо у вас є доступ до функції переходу, іноді - це добре.Q(s,a)V(s)(s,a)(s)V

Є й інші напрямки, коли обидва поєднуються. Наприклад, функція переваги, де . Якщо вас цікавить, ви можете знайти останній приклад, використовуючи переважні функції тут:A(s,a)=Q(s,a)V(s)

Дуельні мережеві архітектури для вивчення глибокого підкріплення

Ziyu Wang, Tom Schaul, Matteo Hessel, Hado van Hasselt, Marc Lanctot та Nando de Freitas.


19

Vπ(s) - це значення значення стану MDP (процес рішення Маркова). Це очікувана прибутковістьпочинаючи з державиs наступної політикиπ .

У виразі

Vπ(s)=Eπ{Gt|st=s}

Gt - загальна ВІДКОМЛЕНА винагорода за крок часуt , на відміну відRt що є негайним поверненням. Тут ви приймаєте очікування ВСІХ дій відповідно до політикиπ .

Qπ(s,a) - функція значення значення. Це очікуване повернення, починаючи від стануs , слідкуючи за політикоюπ , здійснюючи діїa . Зосереджено увагу на конкретних діях у конкретній державі.

Qπ(s,a)=Eπ{Gt|st=s,at=a}

Співвідношення між Qπ і Vπ (значення перебування в такому стані) є

Vπ(s)=aAπ(a|s)Qπ(a,s)

Ви підсумовуєте кожне значення дії, помножене на ймовірність вчинити цю дію (політика π(a|s) ).

Якщо ви вважаєте приклад світу сітки, ви помножуєте ймовірність (вгору / вниз / вправо / вліво) на один крок вперед на значення стану (вгору / вниз / вправо / вліво).


5
Це найкоротша відповідь.
Бретт

У мене є джерело, яке стверджує, що . Як ви співвідносите це рівняння з тим, яке ви надаєте у своїй відповіді, V π ( s ) = a A π ( a s ) Q π ( a , s ) ? У своєму рівнянні ви визначаєте V за зваженою сумою QVπ(s)=maxaAQπ(s,a)Vπ(s)=aAπ(as)Qπ(a,s)VQзначення. Це відрізняється від визначення у мене є, який визначає як найвищий Q . VQ
nbro

@nbro Я вважаю, що це залежить від того, яку політику ви виконуєте. У чистої жадібній політиці ви праві. Але якби це була більш дослідницька політика, яка була побудована для стохастичного вирішення дії, то вищезазначене було б правильним
deltaskelta

7

Ви маєте право, функція V надає значення стану, а Q дає значення дії в стані (дотримуючись заданої політики π ). Я знайшов найбільш чітке пояснення Q-навчання та як воно працює в книзі Тома Мітчелла «Машинне навчання» (1997), гл. 13, який можна завантажити. V визначається як сума нескінченного ряду, але його тут не важливо. Важливо, що функція Q визначається як

Q(s,a)=r(s,a)+γV(δ(s,a))
де V * - найкраще значення стану, якщо ви могли б дотримуватися оптимальної політики, якої ви не знаєте. Однак він має хорошу характеристику з точки зоруQ
V(s)=maxaQ(s,a)
ОбчисленняQ робиться шляхом заміниVу першому рівнянні дати
Q(s,a)=r(s,a)+γmaxaQ(δ(s,a),a)

Спочатку це може здатися дивною рекурсією, оскільки це виражає значення Q дії в поточному стані з точки зору найкращого значення Q стану- наступника , але це має сенс, коли ви дивитесь, як використовує процес резервного копіювання: Розвідка процес зупиняється, коли він досягає стану мети і збирає винагороду, яка стає кінцевим значенням Q остаточного переходу. Тепер у наступному навчальному епізоді, коли процес дослідження досягне цього попереднього стану, процес резервного копіювання використовує вищевказану рівність для оновлення поточного значення Q попереднього стану. Наступного разу йогоПопередник відвідав, що значення Q держави оновлюється, і так далі відновлюється (книга Мітчелла описує більш ефективний спосіб зробити це шляхом зберігання всіх обчислень і повторного їх повторного відтворення). За умови, що кожну державу відвідують нескінченно часто, цей процес врешті-решт обчислює оптимальний Q

Іноді ви побачите швидкість навчання α застосовану для контролю того, наскільки насправді Q оновлюється:

Q(s,a)=(1α)Q(s,a)+α(r(s,a)+γmaxaQ(s,a))
=Q(s,a)+α(r(s,a)+γmaxaQ(s,a)Q(s,a))
А тепер зверніть увагущо оновлення до величини Qмаєзалежності від поточного значення Q. Книга Мітчелла також пояснює, чому це так і навіщо вам потрібноα : його для стохастичних MDP. Безα , кожного разу при спробі пари, дії дій було б різне винагороду, тому функція Q ^ відскакує всюди і не зближується. αчи так, що нові знання приймаються лише частково. Спочатку α встановлюється високо, так що струми (переважно випадкові значення) Q є менш впливовими. α зменшується в міру прогресування навчання, так що нові оновлення мають менший і менший вплив, і тепер навчання Q сходиться


0

Ось більш детальне пояснення взаємозв'язку між значенням стану і значенням дії у відповіді Аарона. Давайте спочатку розглянемо визначення функції значення та функції значення дії в політиці π :

vπ(s)=E[Gt|St=s]qπ(s,a)=E[Gt|St=s,At=a]
деGt=k=0γkRt+k+1- повернення в моментt. Зв'язок між цими двома значущими функціями може бути отриманий як
vπ(s)=E[Gt|St=s]=gtp(gt|St=s)gt=gtap(gt,a|St=s)gt=ap(a|St=s)gtp(gt|St=s,At=a)gt=ap(a|St=s)E[Gt|St=s,At=a]=ap(a|St=s)qπ(s,a)
Наведене вище рівняння є важливим. Він описує взаємозв'язок між двома основними ціннісними функціями в підкріпленні навчання. Це дійсно для будь-якої політики. Більше того, якщо ми маємодетерміновануполітику, тоvπ(s)=qπ(s,π(s)). Сподіваюсь, це вам корисно. (щоб дізнатися більше про рівняння оптимальності Беллманаhttps://stats.stackexchange.com/questions/347268/proof-of-bellman-optimality-equation/370198#370198)


0

The value function is an abstract formulation of utility. And the Q-function is used for the Q-learning algorithm.


For the context of this question, the V and Q are different.
Siong Thye Goh
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.