Теорія гри: гра T-Fold Repetition


3

Давайте скажемо, що два гравці, $ i = 2 $, змагаються в стандартній дилемі з в'язнями, де простір дій кожного гравця $ a_i в A_i = {C, D} $ \ t

Припустимо, що гра повторюється $ T $ разів, і вся інформація про минулі історії є загальновідомою.

функція стратегії для будь-якого гравця $ i $ в період часу $ t $ є $$ s_i ^ {t}: H_t \ t

де історія, встановлена ​​в момент часу $ t $, дорівнює $ H_t = A ^ t = ({C, D} разів {C, D}) ^ t $

Отже, стратегія встановила $ S_i $ гравця $ i $ для цілком Гра T-повторення - декартовий продукт

$$ S_i = {sf X} ^ {t-1} _ {t = 1} A_i ^ {A ^ t} $$

Моє запитання:

Чи правильно я визначив набір стратегій (вище рівняння) гравця для гри $ T $ повторення? Причина, чому я запитую, якщо тому, що багато книжок визначають стратегію, по-різному, як об'єднання всіх історій, відображених у просторі дій гравця, як такого

$$ S_i = {sf}} {t-1} _ {t = 1} H_t


1
Що ви маєте на увазі під набором стратегій $ S_i $ в період часу $ t $? Це та частина стратегії, яка вирішує все, поки не буде $ t $, або частина, яка вирішує тільки $ t $?
denesp

Дякуємо за ваш коментар. На жаль зробили виправлення. Набір стратегій для всієї гри. Я просто хочу, щоб хтось підтвердив, що стратегія, яку я написав для всієї гри, є правильною, тобто гігантським декартовим продуктом.
jessica

Відповіді:


3

Ви в основному отримали його, є деякі незначні помилки.

  1. Ви не можете мати індекс переміщення $ t $ декартового продукту у верхньому індексі цього продукту $$ S_i = {sf X} ^ {t-1} _ {t = 1} A_i ^ {A ^ t}. $$
  2. На старті не було жодних рухів, тому в першому раунді ви повинні зіставити порожню історію $ H_0 = A ^ 0 $ до $ A_i $, а не $ H_1 = A ^ 1 $, як ви, здається, зробили.

Враховуючи це, я думаю, що набір стратегій $ i $ є $$ S_i = {sf X} ^ {T-1} _ {t = 0} A_i ^ {A ^ t}. $$

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.