Кооперативне зміцнення навчання

10

У мене вже є реалізація для одного агента, який працює над проблемою динамічного ціноутворення з метою максимізації доходу. Однак проблема, з якою я працюю, полягає в декількох різних продуктах, які є заміною один одному, тому динамічне ціноутворення на них усіх з незалежними учнями здається некоректним, оскільки ціна одного впливає на винагороду іншого. Мета полягає в тому, щоб динамічно цінувати їх усіх, щоб максимально збільшити суму кожного окремого доходу. $Q(\lambda)$

Я робив деякі дослідження, щоб спробувати знайти щось, що застосовує навчання підкріплення таким чином, але в багатьох реалізаціях багатьох агентів я знайшов акцент більше на конкурентних іграх, ніж на кооперативі, або вони припускають неповне знання інших агентів (я мав би повне знання кожного агента за цим сценарієм). Чи існують таким чином добре досліджені / задокументовані програми спільного навчання?

machine-learning reinforcement-learning

— user3704120
джерело

1

Ви можете подивитися ці папери. Перший досить пов'язаний із вашим завданням.
http://icamt2016.org/papers/SS-LTMLBDA-06-05.pdf http://researcher.watson.ibm.com/researcher/files/us-kephart/icml00_qrt.pdf

— Праяланкар
джерело

0

Загалом, те, що ви намагаєтесь досягти, - це ефективність Pareto.

Для того, щоб зробити це кооперативним, вам потрібно визначити функцію єдиної винагороди, яку поділяють усі гравці (це може бути функція, яка певним чином поєднує окремі функції винагороди).

Якось вам потрібно зважити винагороду, яку ви отримуєте від одного товару по відношенню до інших.

— Хуан Лені
джерело