Однак обидва підходи здаються мені однаковими, тобто прогнозування максимальної винагороди за дію (Q-навчання) еквівалентно передбаченню ймовірності вжити дії безпосередньо (PG).
Обидва методи теоретично керуються конструкцією Марківського рішення , і в результаті використовують подібні позначення та поняття. Крім того, у простих розв’язуваних середовищах слід очікувати, що обидва способи призведуть до однакових - або принаймні еквівалентних - оптимальних політик.
Однак вони насправді різні всередині. Найбільш фундаментальні відмінності між підходами полягають у тому, як вони підходять до вибору дій, як під час навчання, так і як результат (вивчена політика). У Q-навчанні мета полягає в тому, щоб навчитися єдиному детермінованому дії з дискретного набору дій шляхом знаходження максимального значення. Завдяки градієнтам політики та іншим прямим пошуком політики, мета полягає в тому, щоб вивчити карту від стану до дії, яка може бути стохастичною і працює в просторах дії безперервної дії.
Як результат, методи градієнта політики можуть вирішити проблеми, які не можуть:
Великий і безперервний простір дій. Однак, використовуючи методи, що базуються на цінностях, це все ж можна порівняти дискретизацією - і це не поганий вибір, оскільки функція відображення в градієнті політики повинна бути певним наближенням на практиці.
Стохастична політика. Метод, що ґрунтується на цінності, не може вирішити середовище, де оптимальна політика стохастична, що вимагає певних імовірностей, таких як "Ножиці / Папір / Камінь". Це тому, що в Q-навчанні немає навчальних параметрів, які керують ймовірністю дії, формулювання проблеми в навчанні ТД передбачає, що детермінований агент може бути оптимальним.
Однак ціннісні методи, такі як Q-навчання, мають і деякі переваги:
Простота. Ви можете реалізувати функції Q як прості дискретні таблиці, і це дає певні гарантії конвергенції. Немає табличних версій градієнта політики, оскільки вам потрібна функція відображенняp ( a ∣ s , θ ) який також повинен мати плавний градієнт відносно θ.
Швидкість. Методи навчання ТД, що завантажуються, часто набагато швидше засвоїти політику, ніж методи, які повинні суто вибирати з навколишнього середовища, щоб оцінити прогрес.
Є й інші причини, чому ви можете скористатися тим чи іншим підходом:
Ви можете дізнатися передбачуваний прибуток під час запуску процесу, щоб допомогти іншим процесам планування, пов'язаним з агентом.
Представлення проблеми в державі легше піддається або функції значення, або функції політики. Ціннісна функція може виявитися дуже простою для держави, а політика дуже складною і важкою для засвоєння, або навпаки .
Деякі найсучасніші вирішувачі RL фактично використовують обидва підходи разом, наприклад Actor-Critic. Це поєднує в собі сильні сторони та методи градієнта політики.