Оптимальний алгоритм для вирішення завдань російських бандитів?


13

Я читав про цілий ряд алгоритмів для вирішення проблем, пов’язаних з бандитськими озброєними на зразок greedy, softmax та UCB1, але у мене виникають певні проблеми з сортуванням того, який підхід найкраще знизити до жалю.ϵ

Чи відомий оптимальний алгоритм для вирішення проблеми російського бандита? Чи є вибір алгоритму, який, здається, найкраще працює на практиці?


Імовірно, не існує визнаного оптимального рішення, інакше сторінка Вікіпедії так би сказала, і не було б експериментальної сторінки Sourceforge
Генрі

Чи не повинно це бути на Теоретичній інформатиці SE?

1
@mbq, оскільки навчання підкріплення - це галузь машинного навчання, я не вважаю так;)
steffen

@steffen Звичайно, назва здавалася "tcsy".

@mbq Я не розумію. Що означає "tscy"?
steffen

Відповіді:


9

Ось два опитування, які я нещодавно знайшов. Я їх ще не читав, але конспекти звучать багатообіцяюче.

Джоанн Верморель і Мегряр Морі: багатозброєні бандитичні алгоритми та емпірична оцінка (2005)

З реферату:

Проблема з багатогранним бандитом для гравця полягає в тому, щоб вирішити, яку ручку K-ігрового автомата витягнути, щоб отримати максимальну загальну винагороду в серії випробувань. Багато проблем реального навчання та оптимізації можна моделювати таким чином. За останні два десятиліття як рішення цієї проблеми було запропоновано декілька стратегій чи алгоритмів, але, наскільки нам відомо, спільної оцінки цих алгоритмів не було.

Володимир Кулешов та Дойна Прекуп: Алгоритми багатогранної бандитської проблеми (2000) З конспекту:

По-друге, продуктивність більшості алгоритмів різко відрізняється від параметрів бандитської проблеми. Наше дослідження визначає для кожного алгоритму параметри, де він працює добре, і параметри, де він працює погано.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.