Прогнозування псевдовипадкової послідовності

Відмова: Я - біолог, тому вибачте за (можливо) основне питання, сформульоване в таких грубих термінах.

Я не впевнений, чи варто мені задавати це питання тут або на DS / SC, але CS - найбільший із трьох, тож тут йдеться. (Після того як я опублікував, мені спало на думку, що перехресне підтвердження може бути кращим місцем для цього, але на жаль).

Уявіть, що є агент, який приймає бінарні рішення. І середовище, яке за кожне рішення агента ("випробування") або винагороджує агента, або ні. Критерії винагородження рішень агента не прості. Загалом критерії є випадковими, але вони мають обмеження, наприклад, середовище ніколи не винагороджує більше ніж 3 рази за одне і те ж рішення і ніколи не чергує нагороджене рішення більше 4 разів поспіль.

Послідовність критеріїв може виглядати приблизно так

0 0 0 1 0 1 0 0 1 1 1 0 1 1 0 0 1 0 ...

але ніколи

0 0 0 1 0 1 0 0 1 1 1 1 1 1 0 0 1 0 ...

оскільки критерій нагородження не може повторюватися більше 3 разів.

У цих умовах досить легко сформулювати стратегію, яку ідеальний спостерігач повинен взяти на себе, щоб отримати максимальну винагороду. Щось по лінії

вирішувати випадковим чином
якщо ви виявите ці критерії повторені 3 рази - вирішіть протилежний, ніж останній критерій
якщо ви виявите, що критерії чергувались 4 рази, вирішіть за останнім критерієм

Тепер, важка частина. Тепер критерій кожного випробування залежить не тільки від історії попередніх критеріїв, але й від історії рішень агента, наприклад, якщо агент проводить чергування більше 8 з останніх 10 судових процесів, нагороджуйте тим же рішенням, що і агент, прийнятий останній раз (як якщо відмовити агенту від чергування) і якщо агент повторив одне і те ж рішення на більш ніж 8 з останніх 10 випробувань, тобто він упереджений, зробіть критерій, протилежний упередженості. Пріоритет історії критеріїв перед історією рішень визначений заздалегідь, тому двозначності ніколи не буває.

Послідовності рішень (d) та критеріїв (c) можуть виглядати приблизно так

d: 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 0 0 0 1 1 0 1 0 1 0 ...
c: 1 0 1 0 0 0 1 1 0 0 1 1 1 1 1 1 1 1 0 1 0 0 1 1 0 0 0 1 0 ...
                       ↑ here criteria counteract bias in decisions

Я не бачу простого способу винайти стратегію максимізації для агента. Але я впевнений, що повинен бути такий, і якийсь розумний алгоритм машинного навчання повинен бути в змозі його визначити.

Моє запитання не стільки в тому, як вирішити цю проблему (хоча я був би радий, якщо ви запропонуєте рішення), а більше, як називають ці проблеми? Де я можу прочитати про це? Чи є абстрактне рішення чи може допомогти тільки моделювання? Загалом, як я, як біолог, підходити до такого типу проблем?

machine-learning probability-theory

— Сергій Антопольський
джерело

див., наприклад, автоматичний аналіз часових рядів . Це допоможе, якби ви були детальніше про вхідні дані. це з біології? існують методи std для проблем із std. повторювані АНН (штучні нейронні сітки) також справляються з цим. також, можливо, падіння by Computer Science Chat

— vzn

Приховані моделі Маркова можуть бути корисним інструментом.

— Рафаель

Ви можете прочитати про Follow-The-Leader та інші варіанти - onlineprediction.net/?n=Main.FollowTheLeader

— MotiN

Я думаю, що ви маєте на увазі близьке до того, що люди в ML називають зміцненням навчання .

— Каве

ps: Ви, можливо, захочете спробувати публікацію на Cross Valified, якщо ви не отримаєте відповідь через деякий час.

— Каве

Ви можете підійти до цієї проблеми, використовуючи навчання підсилення.

Класична книга цього - Саттон і Барто:

Проект другого видання доступний безкоштовно: https://webdocs.cs.ualberta.ca/~sutton/book/the-book.html

Для того, щоб зробити вашу проблему марковською, визначте кожну державу як вектор останніх десяти рішень. Ваші дії будуть 1 або 0.

— Хуан Лені
джерело