Розгортання монети, процеси прийняття рішень та значення інформації


14

Уявіть наступне налаштування: у вас є 2 монети, монета A, яка гарантовано є справедливою, і монета B, яка може бути, а може і не бути справедливою. Вас просять зробити 100 монет, і ваша мета - збільшити кількість головок .

Ваша попередня інформація про монету B полягає в тому, що вона була перевернута 3 рази і отримала 1 головку. Якби ваше правило рішення було просто засноване на порівнянні очікуваної ймовірності головок 2-х монет, ви перевернете монету A в 100 разів і зробите це з нею. Це справедливо навіть при використанні розумних байєсівських оцінок (задніх засобів) ймовірностей, оскільки у вас немає підстав вважати, що монета B дає більше головок.

Однак що робити, якщо монета B насправді упереджена на користь голів? Безумовно, "потенційні голови", яких ви відмовитеся, кілька разів перевернувши монету B (і, отже, отримавши інформацію про її статистичні властивості), були б цінними в певному сенсі і, отже, врахували б ваше рішення. Як можна цю математичну характеристику описати "цінністю інформації"?

Питання: Як ви математично будуєте правило оптимального рішення в цьому сценарії?


Я видаляю свою відповідь. Занадто багато людей скаржаться на те, що я явно користувався попереднім (що є стандартним в літературі). Насолоджуйтесь невірною відповіддю Кам-Девідсона Пілона, де він також бере на себе попередній (але ніхто не заперечує) і вважає оптимальним метод, який на 1,035 нижче оптимального.
Дуглас Заре

хто, коли це все сталося? До речі, я погодився би з Дугласом, що використання попереднього - це добре. Я також відкликаю своє твердження про оптимальність.
Cam.Davidson.Pilon

Я приймаю рішення Кама, тому що воно мені дуже допомогло. Я погоджуюся, що це не оптимально, але якщо хтось не може вказати на загальне оптимальне рішення, яке легко можна обчислити, це найкраща ставка.
М. Сайфер

Чому це було так погано, що я використовував попередній (що я чітко заявив), щоб відповісти на запитання з позначкою "байєсийський"?
Дуглас Заре

1
Я не критикував використання попереднього. Я згадував як сторону, що можуть бути більш відповідні пріори, ніж єдині (наприклад, Джеффрі), але це лише мало стосується питання. Ваше рішення було чудово, просто не настільки корисне для мене, оскільки воно не узагальнюється легко.
М. Сайфер

Відповіді:


7

Багаторукий бандит

Це окремий випадок багатогранної бандитської проблеми . Я кажу про окремий випадок, тому що, як правило, ми не знаємо жодної з вірогідностей голів (у цьому випадку ми знаємо, що одна з монет має ймовірність 0,5).

Питання, яке ви піднімаєте, відоме як дилема розвідки проти експлуатації : чи вивчаєте ви інші варіанти, чи дотримуєтесь того, що вважаєте найкращим. Існує негайне оптимальне рішення, припускаючи, що ви знали всі ймовірності : просто виберіть монету з найбільшою ймовірністю виграшу. Проблема, як ви нагадали, полягає в тому, що ми не впевнені в тому, що таке справжні ймовірності .

Існує багато літератури з цього приводу, і є багато детермінованих алгоритмів, але оскільки ви позначили цей байєсів, я хотів би розповісти вам про моє особисте улюблене рішення: Байєсівський бандит !

Байсійське бандитське рішення

Байєсівський підхід до цієї проблеми є дуже природним. Нам цікаво відповісти «Яка ймовірність того, що монета X краща з двох?».

Апріорі , припускаючи , що ми спостерігали НЕ монета не перевертає все ж, ми не маємо ні найменшого уявлення про те , що ймовірність глав нумізмата Б може бути, позначу цей невідомий . Отже, нам слід призначити попередній рівномірний розподіл до цієї невідомої ймовірності. Крім того, наша попередня (і задня) для монети А тривіально сконцентрована повністю на 1/2.pB

Як ви вже сказали, ми спостерігаємо 2 хвости та 1 головку від монети B, нам потрібно оновити наш задній розподіл. Якщо припустити рівномірне попереднє, а оберти - це монети-перевороти Бернуллі, наша задня частина - . Порівнюючи задній розподіл або A і B зараз:Beta(1+1,1+2)

введіть тут опис зображення

Пошук приблизно оптимальної стратегії

Тепер, коли у нас є афіші, що робити? Нам цікаво відповісти "Що таке імовірність монети B - тим краще для двох" (Пам'ятайте з нашої байєсівської точки зору, хоча є однозначна відповідь, яка з них краща, ми можемо говорити лише з імовірністю):

wB=P(pb>0.5)

wB1wBwB

1. Sample P_B from the posterior of coin B
2. If P_B > 0.5, choose coin B, else choose coin A.

Ця схема також самооновлюється. Коли ми спостерігаємо результат вибору монети B, ми оновлюємо нашу задню частину цією новою інформацією та вибираємо ще раз. Таким чином, якщо монета B дійсно погана, ми виберемо її менше, а монета В насправді хороша, ми виберемо її частіше. Звичайно, ми байєси, отже, ми ніколи не можемо бути абсолютно впевнені, що монета B краща. Вибір такої ймовірнісної форми є найбільш природним рішенням дилеми розвідувально-експлуатаційних робіт.

Це особливий приклад відбору проб Томпсона . Більш детальну інформацію, а також прохолодні додатки до інтернет - рекламі, можна знайти в науково - дослідній роботі компанії Google і науково - дослідній роботі Yahoo, . Я люблю цей матеріал!


2
Я не думаю, що ця стратегія є правильною. Я не думаю, що вам слід вибирати, чи вибирати A чи B імовірно.
Дуглас Заре

2
Я не думаю, що цей документ говорить про те, що ви думаєте, що це робить. Якщо ви не погоджуєтеся, будь ласка, обчисліть очікувану кількість головок, які ви отримаєте за цією стратегією.
Дуглас Заре

5
Я не думаю, що це близько до оптимального. Це говорить про те, що на першому фліпі ви вибрали B з вірогідністю 1/2. Повинно бути зрозуміло, що ви не отримаєте ніякої інформації, якщо ви вибрали A, тому ви повинні весь час обирати B. Сума, яку ви втрачаєте за допомогою цієї помилки, становить приблизно 0,12, коли ви робите її, тож коштує вам приблизно 0,06 на першому кроці. Ви втрачаєте подібну суму, коли грубо перегортаєте монету, щоб вирішити, чи збирати якусь інформацію на наступних кількох кроках. Перегортання раннього означає, що у вас є менше часу для використання переваги, яке ви можете знайти.
Дуглас Заре

3
0.5

1
@DouglasZare Якщо ваш єдиний показник - очікувана кількість головок, враховуючи наші монети, то найкраща стратегія - завжди вибирати монету А. Але це неповно, оскільки вона зосереджується занадто багато на експлікації , а недостатньо на потенційному підйомі розвідка . Логічним завершенням вашої пропозиції є, якщо ми перезапустимо експеримент, один раз перевернути монету B: якщо це хвости, завжди вибираємо A; інше переверніть його ще раз, якщо це голови завжди вибирайте Б.
Cam.Davidson.Pilon

9

Це простий випадок багатогранної бандитської проблеми. Як зазначаєте, ви хочете збалансувати зібрану інформацію, спробувавши невідому монету, якщо вам здається, що це недооптимально за короткий термін проти використання знань, які ви маєте.

1/2

Взагалі, я думаю, ви не можете піти від проблеми динамічного програмування, хоча можуть бути особливі випадки, коли оптимальну стратегію можна знайти і перевірити простіше.

З рівномірним попереднім, тут ви повинні зупинитися:

(0 heads,3 tails),(1 head,5 tails),(2 heads,6 tails),(3,7),(4,8),...(31,35),(32,35),(33,36),(34,37),...(41,44),(42,44),...(46,48),(47,48),(48,49),(49,50)

61.3299

Я використовував наступний код Mathematica для обчислення акцій:

Clear[Equity];
Equity[n_, heads_, tails_] := Equity[n, heads, tails] = 
    If[n == 0, heads, 
       Max[1/2 + Equity[n - 1, heads, tails], 
           (heads + 1)/(heads + tails + 2) Equity[n - 1, heads + 1, tails] + 
           (tails + 1)/(heads + tails + 2) Equity[n - 1, heads, tails + 1]
           ]
      ]

Для порівняння, евристичний відбір проб Томпсона (який, за твердженням Кем Девідсона Пілона, є оптимальним), дає в середньому 60,2907 голів, що нижче на 1,03915. Проба Томпсона має проблему в тому, що він іноді відбирає вибірки B, коли у вас є достатня інформація, щоб знати, що це не є гарною ставкою, і вона часто втрачає шанси на вибірку B на ранній стадії, коли інформація коштує найбільше. У цьому типі проблем вам майже ніколи не байдуже між своїми варіантами, і існує чисто оптимальна стратегія.

tp[heads_, tails_] := tp[heads, tails] = 
    Integrate[x^heads (1 - x)^tails / Beta[heads + 1, tails + 1], {x, 0, 1/2}]


Clear[Thompson];
Thompson[flipsLeft_, heads_, tails_] := Thompson[flipsLeft, heads, tails] = 
    If[flipsLeft == 0, heads, 
       Module[{p = tp[heads, tails]}, 
           p (1/2 + Thompson[flipsLeft-1,heads,tails]) + 
           (1-p)((heads+1)/(heads+tails+2)Thompson[flipsLeft-1,heads+1,tails] + 
           ((tails+1)/(heads+tails+2)) Thompson[flipsLeft-1,heads,tails+1])]]

Я згоден, що оптимальне рішення було б краще, ніж приблизне. Цікаво, чи існує оптимальне загальне рішення, яке може бути ефективно застосовано протягом мілісекунд у динамічному середовищі з кількома сотнями "монет". Якщо ні, то, мабуть, вибірка Томпсона є найкращим варіантом.
М. Сайфер

Вибірка Томпсона є поганим наближенням. Є кращі наближення, які ви можете використовувати, якщо ви не хочете переживати проблеми (в гіршому випадку квадратичного) точного обчислення, але все ж хочете уникнути великих помилок. Насправді точний розрахунок може бути ближчим до лінійного.
Дуглас Заре

PrB(heads)(0,1)1/250

Я не знаю Mathematica, тому я не можу слідкувати за тим, як ви обчислили очікувану кількість головок. Хочете пояснити цю частину? Якщо припустити знання, що ухил монети B виведений з рівномірного розподілу на [0,1], то я не бачу, як можна розраховувати на поразку 50/50.
jerad

1
Дуглас: Тому що я приділив більше уваги вашій відповіді :-). Будь ласка, не зрозумійте мене неправильно - мені це подобається і мені подобається ця нитка. Я вважав важливим зазначити, що вам потрібно додати припущення, щоб отримати відповідь, ось і все. Що стосується практичних питань, у багатьох ситуаціях, включаючи цю, - немає попереднього . (Я впевнений, що не хотів би скласти особисте до того, і тоді доведеться робити на це великі гроші!) Але, звичайно, все ж існує оптимум, якщо ви вкажете функцію втрати. ("Максимізація" очікування не є повною функцією втрат.)
whuber
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.