У мене вже є реалізація для одного агента, який працює над проблемою динамічного ціноутворення з метою максимізації доходу. Однак проблема, з якою я працюю, полягає в декількох різних продуктах, які є заміною один одному, тому динамічне ціноутворення на них усіх з незалежними учнями здається некоректним, оскільки ціна одного впливає на винагороду іншого. Мета полягає в тому, щоб динамічно цінувати їх усіх, щоб максимально збільшити суму кожного окремого доходу.
Я робив деякі дослідження, щоб спробувати знайти щось, що застосовує навчання підкріплення таким чином, але в багатьох реалізаціях багатьох агентів я знайшов акцент більше на конкурентних іграх, ніж на кооперативі, або вони припускають неповне знання інших агентів (я мав би повне знання кожного агента за цим сценарієм). Чи існують таким чином добре досліджені / задокументовані програми спільного навчання?