Складність кінцевих державних часткових інформаційних ігор


12

Враховуючи детерміновану гру з частковою інформацією з нульовою сумою лише лише кінцево багато станів,
можливими результатами яких є [програти, нічия, виграти] зі значеннями [-1,0, + 1] відповідно,
яка складність наближення значення такої гра додатково в межах ?ϵ

Зокрема, я не можу створити жодного алгоритму для цього.
Решта цієї публікації повністю присвячена більш детальному опису
проблеми, тож якщо ви вже можете зрозуміти, що
означає питання у верхній частині цього повідомлення, тоді ви не маєте жодної причини читати решту цієї публікації.

З огляду на суддівську машину станів , із позначеним початковим станом s 0 , станом s a , пара балів якого - [ - 1 , + 1 ] , станом s b , пара балів якого - [ + 1 , - 1 ] , і станами виду{1,2,3,...,S}s0sa[1,+1]sb[+1,1]

де:[p1_info,p2_info,num_of_choices,player_to_move,next_state_table]

  • player_to_move{1,2}
  • є функцією від { 1 , 2 , 3 , . . . , Num_of_choices } { 1 , 2 , 3 , . . . , S }next_state_table{1,2,3,...,num_of_choices}{1,2,3,...,S}
  • p1_info,p2_info,num_of_choices1

Коли машина знаходиться у такому вигляді:

  • надсилає гравцеві_1 та надсилає p2_info гравцеві_2,p1_infop2_info
  • відправляє на вказаний програвач, чекає елемента { 1 , 2 , 3 , . . . , num_of_choices } як вхід від цього гравця,num_of_choices{1,2,3,...,num_of_choices}
  • потім переходить у стан, вказаний next_state_table

Коли машина переходить в один з двох інших станів або s b ,sasb

  • зупиняється з результативною парою цієї держави як її результатом

Існує природна гра для двох гравців: машина арбітра запускається в стані , гравці надають вхід, який чекає суддівський автомат, якщо машина арбітра зупиняється, тоді Гравець 1 набирає перше значення вихідної пари машини і Гравець 2 набирає друге значення вихідної пари машини, інакше обидва гравці отримують 0. s0=1





У чому полягає складність наступної проблеми?
З огляду на таку машину судді та додатне ціле число N, виведіть раціональне число,
яке (додатково) в межах 1 / N від значення натуральної гри для гравця 1.

Як було сказано раніше в цьому запитанні, я не можу придумати
жодного алгоритму для цього.


Чи знають гравці внутрішню структуру? Яка перевага в тому, що мати додаткову інформацію, вона дає більше можливих кроків?
domotorp

Так. Це дає їм краще уявлення про те, що таке сучасний стан.

Вибачте, але я все ще не розумію. Тоді вони знають внутрішню структуру, але не знають, де вони перебувають на даний момент? Будь ласка, поясніть опис, я впевнений, що я не єдиний, хто не може зрозуміти проблему.
domotorp

3
Ваша модель збігається з "стохастичною грою на основі нульової суми з частковою інформацією"?
Крістофер Арнсфельт Хансен

1
@Kristoffer: Не очевидно (принаймні, для мене), що моя модель дозволяє кодувати ірраціональні ймовірності, хоча моя модель інакше рівнозначна цій.

Відповіді:


6

ПРИМІТКА: мій алгоритм, який я стверджував, був неправильним; Я її видалив.

Одне, що потрібно усвідомити, - це неважливо, чи гра детермінована чи ні. Для рандомізації арбітр може попросити кожного з гравців внести випадкове число mod , а потім додати їх. Неважко показати, що якщо гравці використовують свою оптимальну стратегію, сума є випадковим числом p p , яке суддя може використати для рандомізації своєї стратегії. Це не сильно збільшує кількість станів у грі.pp

Для більш низької оцінки на складнощі, питання апроксимації значення простий стохастичною гри є не відомий, що в P . Використовуючи трюк рандомізації, який я наводив вище, легко написати просту стохастичну гру як реферовану гру з таблицею пошуку поліномального розміру.


Ця ідея рандомізації (принаймні, як ви її описали) може дати лише раціональні ймовірності. Крім того, визначення, використане в перших двох роботах, з якими ви пов’язані, також означає, що їхні ігри мають кінцеве дерево ігор, тоді як я вимагаю лише обмеженого простору стану (де "стан" не включає історію гри).

Ви маєте рацію ... перша частина моєї відповіді неправильна. Дозвольте її видалити. Я цілком впевнений, що наближення значення простих стохастичних ігор, як відомо, не знаходиться в P навіть тоді, коли всі монети перевертаються з імовірністю 1/2.
Пітер Шор

1


ϵ0<ϵ

Введення: гра, як описано в моєму запитанні,
повинна виходити ТАК, якщо: значення гри для гравця 1 більше ніж 1-ϵ
ϵ

залишається RE- твердим навіть тоді, коли

player_to_move завжди 1 (тобто потрібен лише 1 гравець),
і
s 0 ≠ s a і s a немає в діапазоні (next_state_table)
(тобто програвач буквально неможливо програти)
і
p1_info і p2_info та number_of_choices не залежать від держави
(тобто, лише відгуки гравця - це те, чи просто він виграв)

.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.