Чи завжди оптимальна політика стохастична, якщо навколишнє середовище також стохастичне?


10

Чи завжди оптимальна політика стохастична (тобто карта від станів до розподілу ймовірності за діями), якщо середовище також стохастичне?

Інтуїтивно, якщо середовище є детермінованим (тобто якщо агент перебуває у стані та вживає дій , то наступний завжди є однаковим, незалежно від того, який крок часу), то оптимальна політика також повинна бути детермінованою (тобто це має бути карта від станів до дій, а не розподілу ймовірностей по діях).sas


Ось відповідне питання: mathoverflow.net/q/44677 .
nbro

Відповіді:


6

Чи завжди оптимальна політика стохастична (тобто карта від станів до розподілу ймовірності за діями), якщо середовище також стохастичне?

Ні.

Оптимальна політика, як правило, детермінована, якщо:

  • Важлива інформація про стан відсутня (POMDP). Наприклад, на карті, де агенту заборонено знати його точне місце розташування або запам'ятати попередні стани, а стан, який йому надано, недостатньо для розмежування між локаціями. Якщо мета - дістатися до конкретного кінцевого місця, оптимальна політика може включати в себе кілька випадкових кроків, щоб уникнути застрявання. Зауважте, що середовище в цьому випадку може бути детермінованим (з точки зору того, хто може бачити всю державу), але все ж призводити до необхідності стохастичної політики для її вирішення.

  • Існує якийсь сценарій теорії ігор minimax, коли детерміновану політику можна покарати навколишнім середовищем чи іншим агентом. Подумайте про ножиці / папір / камінь або дилему в'язня.

Інтуїтивно зрозуміло, що якщо середовище є детермінованим (тобто якщо агент перебуває у стані 𝑠 і вживає дій 𝑎, то наступний стан is 'завжди однаковий, незалежно від того, який крок часу), то оптимальна політика також повинна бути детермінованою (тобто це має бути карта від станів до дій, а не розподілу ймовірностей по діях).

Це здається розумним, але ви можете продовжити цю інтуїцію далі будь-яким методом, заснованим на функції значення:

Якщо ви знайшли функцію оптимального значення, то з повагою діяти щодо неї - це оптимальна політика.

Вищенаведене твердження є лише природним мовним повторним твердженням рівняння оптимальності Беллмана:

v(s)=maxar,sp(r,s|s,a)(r+γv(s))

тобто оптимальні значення отримуються при виборі дії, яка максимально збільшує винагороду плюс знижену вартість наступного кроку. Операція є детермінованою (при необхідності ви можете розірвати зв'язки для максимального значення детерміновано, наприклад, впорядкованим списком дій).maxa

Отже, будь-яке середовище, яке може бути змодельоване MDP і вирішено методом, заснованим на цінності (наприклад, ітерація значень, Q-навчання), має оптимальну політику, яка є детермінованою.

У таких умовах можливо, що оптимальне рішення може взагалі не бути стохастичним (тобто якщо до детермінованої оптимальної політики додати якусь випадковість, політика стане суворо гіршою). Однак, коли є зв'язки з максимальним значенням для однієї або декількох дій в одному або декількох станах, то існує кілька еквівалентних оптимальних і детермінованих політик. Ви можете побудувати стохастичну політику, яка поєднує їх у будь-якій комбінації, і це також буде оптимальним.


1
"У таких умовах можливо, що жодна стохастична політика не є оптимальною", ви маєте на увазі детерміновану політику?
nbro

2
@nbro: Ні, я справді маю на увазі, що немає оптимальної стохастичної політики. Це зазвичай так. Подумайте, наприклад, простий вирішувач лабіринту. Якщо оптимальним детермінованим рішенням є єдиний шлях від початку до виходу, додавання до нього будь-якої випадковості зробить політику суворо гіршою. Це не змінюється, якщо навколишнє середовище додає випадковий шум (наприклад, ходи іноді не вдається)
Ніл Слейтер

2
Я тепер розумію. Ви говорите, що завжди існує детермінована політика, тоді політика, яка є стохастичною і виходить з детермінованої політики, швидше за все, буде гіршою, ніж оптимальна детермінована політика.
nbro

1
@nbro: Так, це все.
Ніл Слейтер

5

Я б сказав, що ні.

Наприклад, розглянемо багатогранну проблему з бандитами . Отже, у вас є зброї, яка має ймовірність принести вам нагороду (наприклад, 1 бал), , буду між 1 і . Це просте стохастичне середовище: це середовище однієї держави, але все ж це середовище.npiin

Але очевидно , що оптимальна політика є вибір руки з найвищим . Тож це не стохастична політика.pi

Очевидно, що якщо ви перебуваєте в середовищі, коли ви граєте проти іншого агента (налаштування теорії ігор), ваша оптимальна політика, безумовно, буде стохастичною (придумайте, наприклад, гру в покер).


Чому було б очевидно завжди вибирати руку з найвищим ? - це ймовірність, тому невідомо, що ви завжди отримуватимете найвищу суму винагороди (принаймні, за обмежений час), якщо завжди будете вибирати руку . pipii
nbro

2
@nbro: Це, безумовно, в очікуванні, саме для цього оптимальна політика. Політика не намагається генерувати генератори випадкових чисел, що вважається неможливим (якщо це було можливо через якийсь внутрішній стан системи, ви повинні або додати цей внутрішній стан до моделі, або трактувати як POMDP)
Ніл Слейтер

@NeilSlater Гаразд. Але чи змінився б висновок, якщо час обмежений? Якщо у вас є обмежена кількість часу для гри, то, напевно, очікування також повинно враховувати наявний час для гри.
nbro

2
@nbro: Це може змінити ваші рішення, але насправді це не оптимальна політика. Оптимальна політика щодо зброї бандитів все ще є детермінованою, щодо використання найкращої руки, але ви цього не знаєте. Йдеться про розвідку та експлуатацію. Ви могли б фразу, як такі, що «політика оптимальної для вивчення проблеми бандитської» можливо. Не термінологія, що використовується, наприклад, Саттон і Барто, але, мабуть, деякі учасники цього парламенту говорять про це, я не знаю. . .
Ніл Слейтер

1
Навколишнє середовище містить лише один стан, у якому ви знову і знову стикаєтесь з одним і тим же рішенням: яку руку я повинен вибрати?
Адрієн Форбу

0

Я думаю про ймовірний пейзаж, в якому ти опиняєшся як актор, з різними невідомими вершинами та жолобами. Хороший детермінований підхід завжди може привести вас до найближчого локального оптимуму, але не обов'язково до глобального оптимуму. Щоб знайти глобальний оптимум, щось на зразок алгоритму MCMC дозволило б стохастично прийняти тимчасово гірший результат, щоб вийти з локального оптимуму і знайти глобальний оптимум. Моя інтуїція полягає в тому, що в стохастичному середовищі це також було би правдою.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.