UCB дійсно є майже оптимальним у стохастичному випадку (до логічного коефіцієнта T для гри T-туру), і до розриву в нерівності Пінкера в сенсі, що залежить від проблеми. Нещодавній статтю Audibert та Bubeck усуває цю залежність від журналу в гіршому випадку, але має гіршу межу у сприятливому випадку, коли різні озброєння мають добре розділені нагороди.
Загалом, UCB є одним кандидатом із більшого сімейства алгоритмів. У будь-який момент гри ви можете подивитися на всі руки, які не «дискваліфіковані», тобто верхня межа довіри якої не менша, ніж нижня межа впевненості деякої руки. Вибір на основі будь-якого розподілу таких кваліфікованих озброєнь є дійсною стратегією і отримує аналогічне жалю до констант.
Емпірично, я не думаю, що було проведено вагому оцінку багатьох різних стратегій, але я думаю, що UCB часто буває досить непоганим.
Більшість останніх досліджень були зосереджені на поширенні бандитських проблем поза простими установками, озброєними K, із стохастичними нагородами, до дуже великих (або нескінченних) просторів дій, з побічною інформацією або без неї, а також під стохастичним або змагальним зворотним зв'язком. Також були розроблені сценарії, коли критерії ефективності різні (наприклад, визначення лише найкращої групи).