Багатоозброєний бандит для загального розподілу нагород

Я працюю над багатогранною бандитською проблемою, де у нас немає інформації про розподіл винагород.

Я знайшов багато паперів, які гарантують межі жалю для розподілу з відомим обмеженням, а також для загальних дистрибутивів із підтримкою в [0,1].

Я хотів би дізнатися, чи існує спосіб успіху в умовах, коли розподіл винагород не має гарантій щодо його підтримки. Я намагаюся обчислити непараметричну межу допуску і використовую це число для масштабування розподілу винагород, щоб я міг використовувати алгоритм 2, вказаний у цьому документі ( http://jmlr.org/proceedings/papers/v23/agrawal12/agrawal12.pdf ). Хтось думає, що такий підхід спрацює?

Якщо ні, чи може хтось вказати мене на потрібне місце?

Дякую купу!

references multiarmed-bandit

— гість
джерело

Дослідження алгоритмів MAB тісно пов'язане з теоретичними гарантіями продуктивності. Дійсно, виникнення інтересу до цих алгоритмів (нагадаємо, вибірку Томпсона було запропоновано у 30-х роках) лише насправді сталося з моменту доповіді Ауєра 2002 року, що підтверджує межі жалю до різних UCB та -greedy алгоритми. Таким чином, мало цікавлять проблеми, коли розподіл винагород не має відомих обмежень, оскільки теоретично майже нічого не можна сказати. $\mathcal{O}(\log(T))$ $\epsilon$

Навіть простий алгоритм відбору проб Томпсона, який ви згадуєте, вимагає, щоб Бернуллі розподіляв винагороду, і навіть на це потрібно 80 років, щоб довести логарифмічний жаль!

На практиці, однак, у випадках, коли ви не знаєте розподілу винагород на певне, ви можете просто масштабувати його до шляхом ділення на велику кількість , а якщо спостерігаєте винагороду вище просто подвоюйте значення, . Немає жодних гарантій використання цього підходу, але він працює досить добре. $[0,1]$ $S$ $S$ $S:=2S$

Також алгоритм відбору проб Томпсона, який ви згадуєте, потребує випробувань Бернуллі, тому ви не можете використовувати довільну безперервну винагороду. Ви можете встановити задній розподіл Гаусса замість бета-версії, але це трохи чутливо до вашого вибору попереднього, тому, можливо, ви хочете встановити його дуже рівним. Якщо ви не хочете доказувати щось про свою реалізацію, це, ймовірно, буде добре.

— fairidox
джерело

Дякую за відгук! Я дійсно ціную це! Однак у мене виникло питання. Я думаю, що алгоритм 2 на папері (вгорі на сторінці 39.4), про який я згадував, не потребує нічого щодо розподілу винагород, АЛЕ той факт, що його підтримка знаходиться в [0,1]. Можливо, ви дивилися на алгоритм 1?

— гість

Так, круто, досить цікавий трюк для перетворення реальних значень на зразки Бернуллі, дякую за те, що вказували, що деталі втекли від мене. У будь-якому випадку, як ви кажете, вам все ще потрібні обмежені змінні, ви можете це зробити за допомогою дешевого подвійного трюку, про який я згадував, і використовувати цю версію вибірки Томпсона. Але вам може бути краще сформулювати метод, який використовує Гауссова задня частина.

— fairidox

Я детальніше розберуся за методом Гаусса заднього, але що ви маєте на увазі під плоским у плані Гаусса? Я б припустив, що це відповідатиме щось на зразок бета (1,1) (рівномірного) до, правда?

— гість

правильно, але очевидно, що ти не можеш мати рівномірного попереднього доступу до необмеженого домену. Отже, якщо у вас є гауссова задня модель, ви, швидше за все, матимете Гаусса, тому, як правило, ви хочете, щоб вона була максимально «плоскою» чи неінформативною. Це, як правило, означає зробити дисперсію такою великою, наскільки ви можете стояти. Я не експерт, але є ціла галузь дослідження щодо того, як побудувати неінформативні та потенційно неправильні пріорі, які ви, можливо, захочете вивчити. Крім того, якщо у вас суттєво позитивні нагороди, ви можете розглянути іншу модель.

— fairidox