Кращий бандитський алгоритм?


27

Найвідомішим алгоритмом бандитів є верхня довіра (UCB), яка популяризувала цей клас алгоритмів. З того часу я припускаю, що зараз є кращі алгоритми. Який найкращий поточний алгоритм (з точки зору емпіричної продуктивності чи теоретичної межі)? Чи оптимальним є цей алгоритм у певному сенсі?

Відповіді:


25

Дослідження NIPS 2011 ("Емпірична оцінка вибірки Томпсона") показує, в експериментах, що Томпсон Вибірка перемагає UCB. UCB заснований на виборі важеля, який обіцяє найвищу винагороду за оптимістичних припущень (тобто дисперсія вашої оцінки очікуваної винагороди висока, тому ви тягнете важелі, які ви не добре знаєте). Натомість Томпсон Самплінг є повністю байєсівським: він створює бандітську конфігурацію (тобто вектор очікуваних нагород) із заднього розподілу, а потім діє так, ніби це була справжня конфігурація (тобто вона тягне важіль із найбільшою очікуваною винагородою).

Правило Байєсового контролю (" Принцип мінімальної відносної ентропії для навчання та діючих дій ", JAIR), узагальнення вибірки Томпсона, виводить вибірку Томпсона з інформаційно-теоретичних принципів та причинності. Зокрема, показано, що Байєсівське правило управління є оптимальною стратегією, коли ви хочете мінімізувати KL між вашою стратегією та (невідомою) оптимальною стратегією та якщо врахувати причинно-наслідкові обмеження. Причина, чому це важливо, полягає в тому, що це може розглядатися як розширення байєсівського висновку до дій: Байєсівський висновок може бути оптимальним стратегією прогнозування, коли вашим критерієм ефективності є KL між вашим оцінкою та (невідомим) справжнім розподілом.


16

UCB дійсно є майже оптимальним у стохастичному випадку (до логічного коефіцієнта T для гри T-туру), і до розриву в нерівності Пінкера в сенсі, що залежить від проблеми. Нещодавній статтю Audibert та Bubeck усуває цю залежність від журналу в гіршому випадку, але має гіршу межу у сприятливому випадку, коли різні озброєння мають добре розділені нагороди.

Загалом, UCB є одним кандидатом із більшого сімейства алгоритмів. У будь-який момент гри ви можете подивитися на всі руки, які не «дискваліфіковані», тобто верхня межа довіри якої не менша, ніж нижня межа впевненості деякої руки. Вибір на основі будь-якого розподілу таких кваліфікованих озброєнь є дійсною стратегією і отримує аналогічне жалю до констант.

Емпірично, я не думаю, що було проведено вагому оцінку багатьох різних стратегій, але я думаю, що UCB часто буває досить непоганим.

Більшість останніх досліджень були зосереджені на поширенні бандитських проблем поза простими установками, озброєними K, із стохастичними нагородами, до дуже великих (або нескінченних) просторів дій, з побічною інформацією або без неї, а також під стохастичним або змагальним зворотним зв'язком. Також були розроблені сценарії, коли критерії ефективності різні (наприклад, визначення лише найкращої групи).


4

Сучасний стан техніки можна підсумувати так:

  • RТ=О(КжурналТΔ)
  • R~Т=О(ТКжурналК)
  • контекстуальний: це складно

ТКΔ

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.