Ось абстракція проблеми навчання в Інтернеті через Інтернет, над якою я працював влітку. Я не бачив подібної проблеми раніше, і це виглядає досить цікаво. Якщо ви знаєте про будь-яку пов’язану роботу, я вдячний довідками.
Проблема Налаштування - це багатогранні бандити. У вас N зброї. Кожна рука i має невідомий, але фіксований розподіл ймовірності над нагородами, які можна заробити, граючи на ній. Для конкретності припустимо, що кожна рука я виплачує винагороду 10 доларів США з імовірністю p [i], а винагороду - 0 доларів. 1-р [і] .
У кожному раунді t вибираєте набір S [t] зброї для відтворення. За кожну руку, яку ви вибрали, ви сплачуєте плату в розмірі 1 долара вперед. Для кожної вибраної групи ви збираєте винагороду, яка береться з (невідомого) розподілу ймовірності нагороди цієї групи. Усі винагороди зараховуються на ваш банківський рахунок, а всі збори списуються з цього рахунку. Крім того, ви отримуєте кредит у розмірі 1 долара на початку кожної ітерації.
Проблема полягає у розробці політики щодо вибору підмножини зброї для кожної ітерації для максимального отримання прибутку (тобто винагороди за мінусом комісій за гру) протягом досить тривалого горизонту, за умови обмеження, що він повинен підтримувати негативний баланс рахунку на весь час.
Я не уточнював, чи розподіляються нагороди за руку, виходячи з попереднього розподілу чи обираються супротивником. Обидва варіанти мають сенс. Супротивник формулювання мені більше приваблює, але, напевно, важче прогресувати далі. Тут противник вибирає вектор (D1, D2, .., DN) розподілів. Враховуючи розподіл, оптимальною збалансованою бюджетною політикою є грати у всі руки, очікувана винагорода яких перевищує 1 долар. Нехай P - покроковий прибуток від цієї оптимальної всезнаючої політики. Я хочу, щоб моя політика в Інтернеті мінімізувала жаль (тобто втрата прибутку за часове вікно T).