Ось два опитування, які я нещодавно знайшов. Я їх ще не читав, але конспекти звучать багатообіцяюче.
Джоанн Верморель і Мегряр Морі: багатозброєні бандитичні алгоритми та емпірична оцінка (2005)
З реферату:
Проблема з багатогранним бандитом для гравця полягає в тому, щоб вирішити, яку ручку K-ігрового автомата витягнути, щоб отримати максимальну загальну винагороду в серії випробувань. Багато проблем реального навчання та оптимізації можна моделювати таким чином. За останні два десятиліття як рішення цієї проблеми було запропоновано декілька стратегій чи алгоритмів, але, наскільки нам відомо, спільної оцінки цих алгоритмів не було.
Володимир Кулешов та Дойна Прекуп: Алгоритми багатогранної бандитської проблеми (2000) З конспекту:
По-друге, продуктивність більшості алгоритмів різко відрізняється від параметрів бандитської проблеми. Наше дослідження визначає для кожного алгоритму параметри, де він працює добре, і параметри, де він працює погано.