Ви маєте право, функція V надає значення стану, а Q дає значення дії в стані (дотримуючись заданої політики π ). Я знайшов найбільш чітке пояснення Q-навчання та як воно працює в книзі Тома Мітчелла «Машинне навчання» (1997), гл. 13, який можна завантажити. V визначається як сума нескінченного ряду, але його тут не важливо. Важливо, що функція Q визначається як
Q(s,a)=r(s,a)+γV∗(δ(s,a))
де V * - найкраще значення стану, якщо ви могли б дотримуватися оптимальної політики, якої ви не знаєте. Однак він має хорошу характеристику з точки зоруQ
V∗(s)=maxa′Q(s,a′)
ОбчисленняQ робиться шляхом заміниV∗у першому рівнянні дати
Q(s,a)=r(s,a)+γmaxa′Q(δ(s,a),a′)
Спочатку це може здатися дивною рекурсією, оскільки це виражає значення Q дії в поточному стані з точки зору найкращого значення Q стану- наступника , але це має сенс, коли ви дивитесь, як використовує процес резервного копіювання: Розвідка процес зупиняється, коли він досягає стану мети і збирає винагороду, яка стає кінцевим значенням Q остаточного переходу. Тепер у наступному навчальному епізоді, коли процес дослідження досягне цього попереднього стану, процес резервного копіювання використовує вищевказану рівність для оновлення поточного значення Q попереднього стану. Наступного разу йогоПопередник відвідав, що значення Q держави оновлюється, і так далі відновлюється (книга Мітчелла описує більш ефективний спосіб зробити це шляхом зберігання всіх обчислень і повторного їх повторного відтворення). За умови, що кожну державу відвідують нескінченно часто, цей процес врешті-решт обчислює оптимальний Q
Іноді ви побачите швидкість навчання α застосовану для контролю того, наскільки насправді Q оновлюється:
Q(s,a)=(1−α)Q(s,a)+α(r(s,a)+γmaxa′Q(s′,a′))
=Q(s,a)+α(r(s,a)+γmaxa′Q(s′,a′)−Q(s,a))
А тепер зверніть увагущо оновлення до величини Qмаєзалежності від поточного значення Q. Книга Мітчелла також пояснює, чому це так і навіщо вам потрібноα : його для стохастичних MDP. Безα , кожного разу при спробі пари, дії дій було б різне винагороду, тому функція Q ^ відскакує всюди і не зближується. αчи так, що нові знання приймаються лише частково. Спочатку α встановлюється високо, так що струми (переважно випадкові значення) Q є менш впливовими. α зменшується в міру прогресування навчання, так що нові оновлення мають менший і менший вплив, і тепер навчання Q сходиться