Відмова: Я - біолог, тому вибачте за (можливо) основне питання, сформульоване в таких грубих термінах.
Я не впевнений, чи варто мені задавати це питання тут або на DS / SC, але CS - найбільший із трьох, тож тут йдеться. (Після того як я опублікував, мені спало на думку, що перехресне підтвердження може бути кращим місцем для цього, але на жаль).
Уявіть, що є агент, який приймає бінарні рішення. І середовище, яке за кожне рішення агента ("випробування") або винагороджує агента, або ні. Критерії винагородження рішень агента не прості. Загалом критерії є випадковими, але вони мають обмеження, наприклад, середовище ніколи не винагороджує більше ніж 3 рази за одне і те ж рішення і ніколи не чергує нагороджене рішення більше 4 разів поспіль.
Послідовність критеріїв може виглядати приблизно так
0 0 0 1 0 1 0 0 1 1 1 0 1 1 0 0 1 0 ...
але ніколи
0 0 0 1 0 1 0 0 1 1 1 1 1 1 0 0 1 0 ...
оскільки критерій нагородження не може повторюватися більше 3 разів.
У цих умовах досить легко сформулювати стратегію, яку ідеальний спостерігач повинен взяти на себе, щоб отримати максимальну винагороду. Щось по лінії
- вирішувати випадковим чином
- якщо ви виявите ці критерії повторені 3 рази - вирішіть протилежний, ніж останній критерій
- якщо ви виявите, що критерії чергувались 4 рази, вирішіть за останнім критерієм
Тепер, важка частина. Тепер критерій кожного випробування залежить не тільки від історії попередніх критеріїв, але й від історії рішень агента, наприклад, якщо агент проводить чергування більше 8 з останніх 10 судових процесів, нагороджуйте тим же рішенням, що і агент, прийнятий останній раз (як якщо відмовити агенту від чергування) і якщо агент повторив одне і те ж рішення на більш ніж 8 з останніх 10 випробувань, тобто він упереджений, зробіть критерій, протилежний упередженості. Пріоритет історії критеріїв перед історією рішень визначений заздалегідь, тому двозначності ніколи не буває.
Послідовності рішень (d) та критеріїв (c) можуть виглядати приблизно так
d: 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 0 0 0 1 1 0 1 0 1 0 ...
c: 1 0 1 0 0 0 1 1 0 0 1 1 1 1 1 1 1 1 0 1 0 0 1 1 0 0 0 1 0 ...
↑ here criteria counteract bias in decisions
Я не бачу простого способу винайти стратегію максимізації для агента. Але я впевнений, що повинен бути такий, і якийсь розумний алгоритм машинного навчання повинен бути в змозі його визначити.
Моє запитання не стільки в тому, як вирішити цю проблему (хоча я був би радий, якщо ви запропонуєте рішення), а більше, як називають ці проблеми? Де я можу прочитати про це? Чи є абстрактне рішення чи може допомогти тільки моделювання? Загалом, як я, як біолог, підходити до такого типу проблем?