Запитання з тегом «multiarmed-bandit»

3
Кращий бандитський алгоритм?
Найвідомішим алгоритмом бандитів є верхня довіра (UCB), яка популяризувала цей клас алгоритмів. З того часу я припускаю, що зараз є кращі алгоритми. Який найкращий поточний алгоритм (з точки зору емпіричної продуктивності чи теоретичної межі)? Чи оптимальним є цей алгоритм у певному сенсі?

4
У яких ситуаціях із реального життя ми можемо використовувати алгоритм бандитів з кількома руками?
Багатогранні бандити добре працюють у ситуаціях, коли у вас є вибір, і ви не впевнені, який з них дозволить максимально покращити ваше самопочуття. Можна використовувати алгоритм для деяких реальних життєвих ситуацій. Як приклад, навчання може бути хорошим полем: Якщо дитина вивчає столярні вироби і йому погано в цьому, алгоритм скаже …

1
Функції витрат для контекстних бандитів
Я використовую vowpal wabbit для вирішення контекстно-бандитської проблеми . Я показую рекламу користувачам, і я маю досить небагато інформації про контекст, у якому відображається реклама (наприклад, хто такий користувач, на якому веб-сайті вони перебувають тощо). Це, здається, є досить класичною контекстуальною бандитською проблемою, як описав Джон Ленгфорд . У моїй …

2
Що таке проба Томпсона з точки зору мирян?
Я не в змозі зрозуміти вибірку Томпсона і як це працює. Я читав про Multi Arm Bandit і після читання алгоритму, пов'язаного з верхнім довір'ям, багато текстів наводив на думку про те, що вибірки Томпсона працюють краще, ніж UCB. Що таке проба Томпсона, простіше кажучи? Сміливо надайте довідкові статті для …

1
Оптимальний алгоритм для вирішення завдань російських бандитів?
Я читав про цілий ряд алгоритмів для вирішення проблем, пов’язаних з бандитськими озброєними на зразок greedy, softmax та UCB1, але у мене виникають певні проблеми з сортуванням того, який підхід найкраще знизити до жалю.ϵϵ\epsilon Чи відомий оптимальний алгоритм для вирішення проблеми російського бандита? Чи є вибір алгоритму, який, здається, найкраще …

1
Багатоозброєний бандит для загального розподілу нагород
Я працюю над багатогранною бандитською проблемою, де у нас немає інформації про розподіл винагород. Я знайшов багато паперів, які гарантують межі жалю для розподілу з відомим обмеженням, а також для загальних дистрибутивів із підтримкою в [0,1]. Я хотів би дізнатися, чи існує спосіб успіху в умовах, коли розподіл винагород не …
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.