3
Кращий бандитський алгоритм?
Найвідомішим алгоритмом бандитів є верхня довіра (UCB), яка популяризувала цей клас алгоритмів. З того часу я припускаю, що зараз є кращі алгоритми. Який найкращий поточний алгоритм (з точки зору емпіричної продуктивності чи теоретичної межі)? Чи оптимальним є цей алгоритм у певному сенсі?