Оптимальний алгоритм для вирішення завдань російських бандитів?

Я читав про цілий ряд алгоритмів для вирішення проблем, пов’язаних з бандитськими озброєними на зразок greedy, softmax та UCB1, але у мене виникають певні проблеми з сортуванням того, який підхід найкраще знизити до жалю. $\epsilon$

Чи відомий оптимальний алгоритм для вирішення проблеми російського бандита? Чи є вибір алгоритму, який, здається, найкраще працює на практиці?

machine-learning reinforcement-learning multiarmed-bandit

— JS01
джерело

Імовірно, не існує визнаного оптимального рішення, інакше сторінка Вікіпедії так би сказала, і не було б експериментальної сторінки Sourceforge

— Генрі

Чи не повинно це бути на Теоретичній інформатиці SE?

@mbq, оскільки навчання підкріплення - це галузь машинного навчання, я не вважаю так;)

— steffen

@steffen Звичайно, назва здавалася "tcsy".

@mbq Я не розумію. Що означає "tscy"?

— steffen

Ось два опитування, які я нещодавно знайшов. Я їх ще не читав, але конспекти звучать багатообіцяюче.

Джоанн Верморель і Мегряр Морі: багатозброєні бандитичні алгоритми та емпірична оцінка (2005)

З реферату:

Проблема з багатогранним бандитом для гравця полягає в тому, щоб вирішити, яку ручку K-ігрового автомата витягнути, щоб отримати максимальну загальну винагороду в серії випробувань. Багато проблем реального навчання та оптимізації можна моделювати таким чином. За останні два десятиліття як рішення цієї проблеми було запропоновано декілька стратегій чи алгоритмів, але, наскільки нам відомо, спільної оцінки цих алгоритмів не було.

Володимир Кулешов та Дойна Прекуп: Алгоритми багатогранної бандитської проблеми (2000) З конспекту:

По-друге, продуктивність більшості алгоритмів різко відрізняється від параметрів бандитської проблеми. Наше дослідження визначає для кожного алгоритму параметри, де він працює добре, і параметри, де він працює погано.

— steffen
джерело