Яке відношення між теорією ігор та навчанням підкріплення?


12

Мене цікавить (Глибоке) Підсилення навчання (RL) . Перш ніж зануритися в цю сферу, я повинен пройти курс теорії ігор (GT) ?

Як пов'язані GT та RL ?


2
Вони приблизно так само споріднені, як молотки та збиті вершки. Напевно, ви можете знайти проблему, в якій можна використовувати і те, і інше, але це не є звичайною.
Дон Реба

4
@DonReba Не за словами двох відомих дослідників у навчанні підкріплення: udacity.com/course/… Я думаю, що Теорія ігор говорить тобі, яка оптимальна політика, в той час як RL розповідає, як агенти можуть дізнатися оптимальну чи хорошу політику.
Кіунм

3
@DonReba, можливо, з точки зору звичайного вмісту, який викладається в них. Однак цілі обох полів не такі вже й різні. Навчання підсилення можна розглядати як гру недосконалої інформації, часто для одного гравця. Або як гра з двома гравцями, в якій інший гравець, природа, дотримується набору правил, які ви хочете виявити.
вигадки

1
Це було навчальним. :)
Дон Реба

Відповіді:


12

У навчанні щодо зміцнення (RL) прийнято уявляти основний процес прийняття рішень Маркова (MDP). Тоді мета РЛ полягає в тому, щоб вивчити хорошу політику щодо ПДР, яка часто лише частково визначена. ПДР можуть мати різні цілі, такі як загальна, середня або дисконтована винагорода, де дисконтована винагорода є найпоширенішим припущенням для РЛ. Є добре вивчені розширення MDP на налаштування для двох гравців (тобто ігор); див., наприклад,

Філар, Єжи та Вьозе Коос. Конкурентні процеси рішення Маркова . Springer Science & Business Media, 2012.

Існує основна теорія, якою поділяються MDP та їх розширення на ігри для двох гравців (з нульовою сумою), включаючи, наприклад, теорему з фіксованою точкою Банаха, Ітерацію цінності, Оптимальність Беллмана, ітерацію політики / вдосконалення стратегії тощо. Однак, хоча існують ці тісні зв’язки між MDP (і, таким чином, RL) та цими конкретними типами ігор:

  • ви можете дізнатися про RL (та MDP) безпосередньо, без GT як обов'язкової умови;
  • у будь-якому випадку, ви не дізнаєтесь про цей матеріал на більшості курсів GT (які, як правило, орієнтувались б, наприклад, на стратегічну форму, обширну форму та повторні ігри, але не на державні нескінченні ігри, що узагальнюють MDP).

6

Теорія ігор досить задіяна в контексті багатоагентного підкріплення (MARL).

Погляньте на стохастичні ігри або прочитайте статтю Аналіз теорії стохастичних ігор для навчання у багатоагентних зміцненнях .

Я б не бачив GT як необхідну умову для RL. Однак це забезпечує приємне розширення до мультиагентної справи.


0

RL: Один агент навчається для вирішення проблеми рішення Маркова (MDPS). GT: Два агенти проходять навчання для вирішення Ігор. Багатоагентне підкріплення навчання (MARL) може використовуватися для вирішення для стохастичних ігор.

Якщо ви зацікавлені в застосуванні одноагентних RL в глибокому навчанні, то вам не потрібно ходити на будь-який курс GT. Для двох або більше агентів вам може знадобитися ігрово-теоретична техніка.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.