Проблема Уоррена Баффетта

Ось абстракція проблеми навчання в Інтернеті через Інтернет, над якою я працював влітку. Я не бачив подібної проблеми раніше, і це виглядає досить цікаво. Якщо ви знаєте про будь-яку пов’язану роботу, я вдячний довідками.

Проблема Налаштування - це багатогранні бандити. У вас N зброї. Кожна рука i має невідомий, але фіксований розподіл ймовірності над нагородами, які можна заробити, граючи на ній. Для конкретності припустимо, що кожна рука я виплачує винагороду 10 доларів США з імовірністю p [i], а винагороду - 0 доларів. 1-р [і] .

У кожному раунді t вибираєте набір S [t] зброї для відтворення. За кожну руку, яку ви вибрали, ви сплачуєте плату в розмірі 1 долара вперед. Для кожної вибраної групи ви збираєте винагороду, яка береться з (невідомого) розподілу ймовірності нагороди цієї групи. Усі винагороди зараховуються на ваш банківський рахунок, а всі збори списуються з цього рахунку. Крім того, ви отримуєте кредит у розмірі 1 долара на початку кожної ітерації.

Проблема полягає у розробці політики щодо вибору підмножини зброї для кожної ітерації для максимального отримання прибутку (тобто винагороди за мінусом комісій за гру) протягом досить тривалого горизонту, за умови обмеження, що він повинен підтримувати негативний баланс рахунку на весь час.

Я не уточнював, чи розподіляються нагороди за руку, виходячи з попереднього розподілу чи обираються супротивником. Обидва варіанти мають сенс. Супротивник формулювання мені більше приваблює, але, напевно, важче прогресувати далі. Тут противник вибирає вектор (D1, D2, .., DN) розподілів. Враховуючи розподіл, оптимальною збалансованою бюджетною політикою є грати у всі руки, очікувана винагорода яких перевищує 1 долар. Нехай P - покроковий прибуток від цієї оптимальної всезнаючої політики. Я хочу, щоб моя політика в Інтернеті мінімізувала жаль (тобто втрата прибутку за часове вікно T).

machine-learning lg.learning online-learning

— Мартін Пал
джерело

Ви впевнені, що найкраща політика - грати всіма зброями, очікувана винагорода яких перевищує 1 долар у кожному раунді? Якщо у вас є суворе обмеження, що вам доводиться постійно підтримувати негативний баланс рахунку, можуть бути раунди, в яких вам навіть заборонено грати.

— Маттіас

Таким чином, ви не знаєте ймовірностей винагороди, але ви можете повідомити про виплату від кожної групи?

— Девід Торнлі

Ви не знаєте ймовірностей і не знаєте очікуваних нагород. Однак всезнаюча «оптимальна» політика, з якою я хочу порівнювати себе, може, однак, грати в усі руки з нагородою, більшою за 1, оскільки це всезнає.

— Мартін Пал

Я буду дивовижно здогадуватися, що після

раундів ви можете отримати очікуваний дохід в межах постійного коефіцієнта оптимального, після чого проблема, схоже, втратила більшість свого незвичного характеру. Нижня межа

випливає із випадку, коли лише одна рука має ненульовий виграш. Я не бачу верхньої межі одразу.

Θ (N)

$\Theta(N)$

Ω (N)

$\Omega(N)$

— Воррен Шуді

Виправлення: після

раундів ви, мабуть, не можете гарантувати потрапляння в постійний коефіцієнт оптимального доходу. Однак, ймовірно, ви можете отримати цю гарантію щодо доходу, отриманого від зброї, яка очікувала повернення принаймні 2 долари.

Θ (N)

$\Theta(N)$

— Воррен Шуді

Я думаю, що існує багато можливих підходів до цієї проблеми (багато з яких я впевнений, ви вважали) - ось кілька ідей / посилань.

Ви можете грати в це як незалежних паралельних одногранних бандитських ігор, вирішуючи тягнути чи не тягнути кожну руку самостійно. Це має спрацювати особливо добре, якщо нагороди розподіляються незалежно. $N$
Дозвольте кожному набору зброї бути новою рукою та запустити алгоритм типу Exp3. Це дає жаль - не така велика. $O(2^{N/2} T^{1/2})$
У майбутньому документі NIPS 2010 Сатен Кейл, Роб Шапір, і я розглядаю випадок, коли один раз грає в шифер зброї. У нашій роботі, однак, фіксується розмір шиферу. Ця стаття також розглядає подібну проблему. Ще одна аналогічна робота з'явилася в ALT 2010. Можливо, деякі ідеї передаються.
Якщо ви ставитесь до цього як до проблеми експертів (кожен експерт рекомендує інший з підмножин), слідуючи за одним експертом, ви можете оцінити ефективність інших експертів, які мають не порожні перехрестя у виборі зброї для витягування за допомогою важливість зважування . Аналіз типу Exp4 може отримати $2^N$ шкодуйте, алечас роботи. $O(N\sqrt{T})$ $O(2^N T)$

ЗРІДИТИ нижче:

Мені здається, що обмеження бюджету (не йде нижче ) робить проблему непереборною. Уявіть, у вас бюджет . Противник може змусити одну з озброєнь завжди окупитися, а решта ніколи не розплачуватися. Тож wp ви переживаєте в першому раунді, тоді як оптимальна стратегія отримує доларів після раундів. Тож очікуване вами жаль принаймні і ви не можете сподіватися на обмежену велику вірогідність. $0$ $1$ $(n-1)/n$ $T$ $T$ $(n-1)T/n$

Також здається, що це може працювати для будь-якого початкового бюджету. Скажіть, ви починаєте з доларів. Тоді противник може встановити всі , крім одного руки , щоб заплатити і одну руку , щоб заплатити що - щось на зразок в.ч. . Я думаю, якщо у вас є обмеження щодо можливої суми виплат та достатньо високий початковий бюджет, то це може залишити місце для цікавої проблеми. $B$ $0$ $2B$ $1/B$

— Лев Рейзін
джерело

Привіт Лев, дякую за покажчики. Я погоджуюсь, що якби у мене був необмежений початковий бюджет, граючи N паралельних бандитів з однією рукою, це вирішило б проблему. Однак бюджетне обмеження вводить зв'язок між зброєю та робить речі цікавими. Зокрема, на першому кроці у вас є лише бюджет, щоб грати однією рукою. На другому кроці ви можете зіграти або 11 рук, або просто 1 руку, залежно від того, чи пощастило вам на першому кроці тощо. Тому важливо знайти купу прибуткових озброєнь на початку, щоб потім скористатися для подальшого дослідження.

— Мартін Пал

Я не усвідомлював, що є початковий бюджет (я зараз розумію частину "негативного балансу", але, можливо, ви можете це зрозуміти в питанні?) - це робить проблему цікавішою. Також цікаво розглядати "контекстуальну" або експертну версію. На жаль, я не знаю більш релевантних посилань на цю проблему.

— Лев Рейзін

Якщо я отримав правильну постановку проблеми, ви отримуєте додаткові $ 1 на кожен раунд. Мартіне, ти можеш пояснити це питання?

— Юкка Суомела

Я думаю, ви отримуєте те, що машина платить, якщо ви граєте на ній і виграєте та втрачаєте 1 долар кожного разу, коли вирішите грати.

— Лев Рейзін