Давайте скажемо, що два гравці, $ i = 2 $, змагаються в стандартній дилемі з в'язнями, де простір дій кожного гравця $ a_i в A_i = {C, D} $ \ t
Припустимо, що гра повторюється $ T $ разів, і вся інформація про минулі історії є загальновідомою.
функція стратегії для будь-якого гравця $ i $ в період часу $ t $ є $$ s_i ^ {t}: H_t \ t
де історія, встановлена в момент часу $ t $, дорівнює $ H_t = A ^ t = ({C, D} разів {C, D}) ^ t $
Отже, стратегія встановила $ S_i $ гравця $ i $ для цілком Гра T-повторення - декартовий продукт
$$ S_i = {sf X} ^ {t-1} _ {t = 1} A_i ^ {A ^ t} $$
Моє запитання:
Чи правильно я визначив набір стратегій (вище рівняння) гравця для гри $ T $ повторення? Причина, чому я запитую, якщо тому, що багато книжок визначають стратегію, по-різному, як об'єднання всіх історій, відображених у просторі дій гравця, як такого
$$ S_i = {sf}} {t-1} _ {t = 1} H_t