Я працюю над багатогранною бандитською проблемою, де у нас немає інформації про розподіл винагород.
Я знайшов багато паперів, які гарантують межі жалю для розподілу з відомим обмеженням, а також для загальних дистрибутивів із підтримкою в [0,1].
Я хотів би дізнатися, чи існує спосіб успіху в умовах, коли розподіл винагород не має гарантій щодо його підтримки. Я намагаюся обчислити непараметричну межу допуску і використовую це число для масштабування розподілу винагород, щоб я міг використовувати алгоритм 2, вказаний у цьому документі ( http://jmlr.org/proceedings/papers/v23/agrawal12/agrawal12.pdf ). Хтось думає, що такий підхід спрацює?
Якщо ні, чи може хтось вказати мене на потрібне місце?
Дякую купу!