Мене цікавить (Глибоке) Підсилення навчання (RL) . Перш ніж зануритися в цю сферу, я повинен пройти курс теорії ігор (GT) ?
Як пов'язані GT та RL ?
Мене цікавить (Глибоке) Підсилення навчання (RL) . Перш ніж зануритися в цю сферу, я повинен пройти курс теорії ігор (GT) ?
Як пов'язані GT та RL ?
Відповіді:
У навчанні щодо зміцнення (RL) прийнято уявляти основний процес прийняття рішень Маркова (MDP). Тоді мета РЛ полягає в тому, щоб вивчити хорошу політику щодо ПДР, яка часто лише частково визначена. ПДР можуть мати різні цілі, такі як загальна, середня або дисконтована винагорода, де дисконтована винагорода є найпоширенішим припущенням для РЛ. Є добре вивчені розширення MDP на налаштування для двох гравців (тобто ігор); див., наприклад,
Філар, Єжи та Вьозе Коос. Конкурентні процеси рішення Маркова . Springer Science & Business Media, 2012.
Існує основна теорія, якою поділяються MDP та їх розширення на ігри для двох гравців (з нульовою сумою), включаючи, наприклад, теорему з фіксованою точкою Банаха, Ітерацію цінності, Оптимальність Беллмана, ітерацію політики / вдосконалення стратегії тощо. Однак, хоча існують ці тісні зв’язки між MDP (і, таким чином, RL) та цими конкретними типами ігор:
Теорія ігор досить задіяна в контексті багатоагентного підкріплення (MARL).
Погляньте на стохастичні ігри або прочитайте статтю Аналіз теорії стохастичних ігор для навчання у багатоагентних зміцненнях .
Я б не бачив GT як необхідну умову для RL. Однак це забезпечує приємне розширення до мультиагентної справи.
RL: Один агент навчається для вирішення проблеми рішення Маркова (MDPS). GT: Два агенти проходять навчання для вирішення Ігор. Багатоагентне підкріплення навчання (MARL) може використовуватися для вирішення для стохастичних ігор.
Якщо ви зацікавлені в застосуванні одноагентних RL в глибокому навчанні, то вам не потрібно ходити на будь-який курс GT. Для двох або більше агентів вам може знадобитися ігрово-теоретична техніка.