Чи завжди оптимальна політика стохастична (тобто карта від станів до розподілу ймовірності за діями), якщо середовище також стохастичне?
Ні.
Оптимальна політика, як правило, детермінована, якщо:
Важлива інформація про стан відсутня (POMDP). Наприклад, на карті, де агенту заборонено знати його точне місце розташування або запам'ятати попередні стани, а стан, який йому надано, недостатньо для розмежування між локаціями. Якщо мета - дістатися до конкретного кінцевого місця, оптимальна політика може включати в себе кілька випадкових кроків, щоб уникнути застрявання. Зауважте, що середовище в цьому випадку може бути детермінованим (з точки зору того, хто може бачити всю державу), але все ж призводити до необхідності стохастичної політики для її вирішення.
Існує якийсь сценарій теорії ігор minimax, коли детерміновану політику можна покарати навколишнім середовищем чи іншим агентом. Подумайте про ножиці / папір / камінь або дилему в'язня.
Інтуїтивно зрозуміло, що якщо середовище є детермінованим (тобто якщо агент перебуває у стані 𝑠 і вживає дій 𝑎, то наступний стан is 'завжди однаковий, незалежно від того, який крок часу), то оптимальна політика також повинна бути детермінованою (тобто це має бути карта від станів до дій, а не розподілу ймовірностей по діях).
Це здається розумним, але ви можете продовжити цю інтуїцію далі будь-яким методом, заснованим на функції значення:
Якщо ви знайшли функцію оптимального значення, то з повагою діяти щодо неї - це оптимальна політика.
Вищенаведене твердження є лише природним мовним повторним твердженням рівняння оптимальності Беллмана:
v∗(s)=maxa∑r,s′p(r,s′|s,a)(r+γv∗(s′))
тобто оптимальні значення отримуються при виборі дії, яка максимально збільшує винагороду плюс знижену вартість наступного кроку. Операція є детермінованою (при необхідності ви можете розірвати зв'язки для максимального значення детерміновано, наприклад, впорядкованим списком дій).maxa
Отже, будь-яке середовище, яке може бути змодельоване MDP і вирішено методом, заснованим на цінності (наприклад, ітерація значень, Q-навчання), має оптимальну політику, яка є детермінованою.
У таких умовах можливо, що оптимальне рішення може взагалі не бути стохастичним (тобто якщо до детермінованої оптимальної політики додати якусь випадковість, політика стане суворо гіршою). Однак, коли є зв'язки з максимальним значенням для однієї або декількох дій в одному або декількох станах, то існує кілька еквівалентних оптимальних і детермінованих політик. Ви можете побудувати стохастичну політику, яка поєднує їх у будь-якій комбінації, і це також буде оптимальним.