Що таке проба Томпсона з точки зору мирян?


14

Я не в змозі зрозуміти вибірку Томпсона і як це працює. Я читав про Multi Arm Bandit і після читання алгоритму, пов'язаного з верхнім довір'ям, багато текстів наводив на думку про те, що вибірки Томпсона працюють краще, ніж UCB. Що таке проба Томпсона, простіше кажучи?

Сміливо надайте довідкові статті для подальшого розуміння.

Відповіді:


9

Я спробую дати пояснення без жодної математики. Частина цієї відповіді повторюється з деяких пунктів, які я висловив у відповіді на інше запитання про проблеми MAB .


Стратегічний компроміс з багатогранними бандитськими проблемами: При проблемах з бандитами з кількома руками гравець грає по одному «бандиту» кожного раунду і намагається максимально збільшити свою загальну очікувану віддачу за задану кількість раундів. Очікуване повернення кожного з бандитів описується деякими невідомими параметрами в проблемі, і тому, коли ми спостерігаємо більше результатів у кожному раунді, ми отримуємо більше інформації про ці невідомі параметри, а значить, про очікуване повернення кожного з бандитів . У кожному раунді гри (крім останнього) проблема MAB передбачає стратегічний компроміс гравцем між двома цілями:

  • Безпосередні нагороди: у кожному раунді він хотів би вибрати розподіл, який дає йому велику очікувану винагороду за цей раунд, що тягне за собою перевагу дистрибуцій, які він (на даний момент) отримує з високою середньою нагородою;

  • Майбутні нагороди (впливає на здобуття інформації): З іншого боку, він хоче вдосконалити свої знання про справжню очікувану нагороду, отримавши більше інформації про розподіли (особливо про ті, які він не грав так багато, як інші), щоб він міг покращити свій вибір у майбутніх раундах.

Відносна важливість цих двох речей визначатиме компроміс, і на це відносне значення впливає низка факторів. Наприклад, якщо в проблемі є лише невелика кількість решти раундів, то висновок щодо майбутніх випробувань порівняно менш цінний, тоді як якщо є велика кількість решти раундів, то висновок про майбутні нагороди відносно більш цінний. Тож азартному гравцеві необхідно враховувати, наскільки він хоче зосередитись на максимальному одержанні негайних нагород у поточному раунді, і наскільки він хоче відхилитися від цього, щоб дізнатися більше про невідомі параметри, що визначають очікувану винагороду кожного з бандитів.


Вибірка Томпсона: Основна ідея відбору проб Томпсона полягає в тому, що в кожному раунді ми беремо свої наявні знання про машини, що є у вигляді заднього вірування про невідомі параметри, і ми "відбираємо" параметри з цього заднього розподілу. Цей вибірковий параметр дає набір очікуваних винагород для кожної машини, і тепер ми робимо ставку на ту, яка має найбільшу очікувану віддачу, під цей вибірний параметр.

На перший погляд , схема вибірки Томпсона, начебто, передбачає спробу максимального негайного очікуваного повернення в кожному раунді (оскільки він включає цей крок максимізації після вибірки параметра). Однак, оскільки вона включає випадкову вибірку параметра з заднього, схема передбачає неявневаріація максимізації теперішньої винагороди порівняно з пошуком додаткової інформації. Більшу частину часу ми отримаємо параметр "зразок", який знаходиться десь у головній частині задньої частини, і вибір машини буде приблизно приблизним до максимізації негайної винагороди. Однак іноді ми будемо вибирати випадковим чином значення параметра, яке знаходиться далеко в хвостах заднього розподілу, і в такому випадку ми в кінцевому підсумку виберемо машину, яка не максимізує негайну винагороду - тобто це буде більше "пошуку" "допомагати в майбутніх нагородах.

Схема Томпсона також має приємне властивість, що ми, як правило, зменшуємо наш "пошук", оскільки ми отримуємо більше інформації, і це імітує бажану стратегічну компромісну проблему, де ми хочемо менше зосереджуватися на пошуку, оскільки ми отримуємо більше інформації. По мірі того, як ми граємо все більше і більше раундів і отримуємо все більше і більше даних, задній збігається ближче до справжніх значень параметрів, і тому випадкова «вибірка» в схемі Томпсона стає більш щільно упакована навколо значень параметрів, що призведе до максимізації значення негайна винагорода. Отже, існує неявна тенденція цієї схеми бути більш "орієнтованою на пошук" на початку з невеликою кількістю інформації та менш "орієнтованою на пошук" згодом, коли є багато даних.

Тепер, сказавши це, один очевидний недолік схеми вибірки Томпсона полягає в тому, що вона не враховує кількість раундів, що залишилися в проблемі MAB. Ця схема іноді формулюється на основі гри з нескінченними раундами, і в цьому випадку це не є проблемою. Однак у проблемах MAB з кінцевими раундами переважно враховувати кількість залишилися раундів, щоб зменшити "пошук", оскільки кількість майбутніх раундів зменшується. (І, зокрема, оптимальною грою в останньому раунді є цілком ігнорувати пошуки і просто робити ставку на бандита з найвищою задньою очікуваною віддачею.) Схема Томпсона цього не робить, тому вона гратиме в кінцеві круглі ігри певним чином це явно неоптимально в певних випадках.


1
Я б хотів, щоб я міг зробити цю відповідь декількома пальцями вгору. Я, мабуть, додав би, як я оновлював би плакатів - наприклад, якщо афіші представлялися як звичайні розподіли - як обчислюються оновлення для середнього та стандартного відхилень плакатів. Я говорю це , тому що я сам не знаю
Mellow

5

Я дам це зняти, і сподіваюся, вам сподобається! Нижче наведено кілька формул, які можуть вас налякати. Я не сподіваюся на це, тому що я зроблю все можливе, щоб пояснити їх найпростішим способом.

Це дві формули:

  • Ймовірність:P(r|θ,a,x)
  • А задній:P(θ|D)

TL; DR

Проба Томпсона дозволяє вам

  1. Виберіть випадковий параметр моделі з усіх параметрів моделі, які ви вважаєте можливими.
  2. Дійте один раз відповідно до конкретного параметру моделі.
  3. Слідкуйте за винагородою, яку ви отримуєте за цей конкретний параметр моделі.
  4. Навчіться цього нового досвіду та оновіть переконання щодо можливих параметрів моделі.

Ймовірність ??

Ймовірність - це те, що визначає, наскільки ймовірні речі. У цьому випадку ймовірність говорить про те, наскільки ймовірно , що ми отримаємо винагороду якщо відіграємо дію в контексті . Наприклад, якщо йде дощ (контекст!) І ти береш парасольку (дія!), Ти залишаєшся сухим (нагорода! :)). З іншого боку, якщо не йде дощ (контекст!) І ти береш парасольку (дія!), Ти повинен мати зайву вагу (негативна винагорода! :(). Тож вірогідність - це головне, що ти хочеш зрозуміти. Якщо ви знаєте все про ймовірність, то легко діяти оптимально.rax

Що про те дивне коло ??

Як ви могли помітити, я нічого не писав про те дивне коло яке називають тетою. (Математики мають звичку вказувати, які частини найважчі, даючи їм грецькі букви, що ускладнює розуміння). Це представляє параметр моделі. Ці параметри використовуються, коли взаємозв'язок між контекстом + діями та винагородою складніше. Наприклад, параметр моделі може бути на скільки знизиться ваша винагорода, якщо 1 мм дощу випаде на вашу голову. Інший параметр моделі може зазначати, на скільки знизиться ваша винагорода, якщо ви візьмете парасольку. Я щойно сказав, що ймовірність - це головне, що ти хочеш зрозуміти; і центральні для ймовірності - параметри моделі. Якщо ви знаєте параметри моделіθθθ, ви знаєте, як контекст + дії стосуються винагороди, і легко діяти оптимально.

То як ми можемо познайомитися з цими параметрами моделі, щоб я міг отримати максимальну винагороду ??

Це важливе питання для багатогранної бандитської проблеми. Власне, він має дві частини. Ви хочете точно ознайомитись з параметрами моделі, досліджуючи всі дії різних типів у різних контекстах. Але якщо ви вже знаєте, яка дія хороша для конкретного контексту, ви хочете скористатися цією дією та отримати якомога більше винагороди. Тож якщо ви не впевнені в параметрах моделі , можливо, вам доведеться провести додаткові дослідження. Якщо ви майже впевнені в параметрах нашої моделі , ви також впевнені, які дії потрібно вжити. Це відоме як компроміс від розвідки та експлуатації.θθ

Ви нічого не говорили про цю задню частину

Ключовим фактором цієї оптимальної поведінки є ваша (не) впевненість щодо параметрів моделі . А задній говорить саме так: враховуючи всі попередні нагороди, отримані за попередні дії у попередніх контекстах, скільки ви знаєте про . Наприклад, якщо ви ніколи не були на вулиці, ви не знаєте, яким нещасним ви стаєте, коли на голову падає дощ. Іншими словами, ви дуже не впевнені у параметрі моделі нещастя, коли дощ-на-голові. Якщо ви часом бували під дощем, з парасолькою і без неї, ви можете почати дізнаватися щось про цей незрозумілий параметр моделі.θθ

Тепер, що пропонує Томпсон Семпінг, щоб зробити з усіма цими невизначеностями ??

Thomson Sampling пропонує щось дуже просте: просто виберіть параметр випадкової моделі зі своєї задньої частини, вживайте заходів і спостерігайте за тим, що відбувається. Наприклад, коли ви ніколи раніше не були на вулиці, параметром нещастя, коли буде дощ на голову, може бути що завгодно. Тож ми просто вибираємо одне, вважаємо, що отримуємо справді нещасні, коли на голову падає дощ. Ми бачимо, що йде дощ (контекст), тому ми беремо парасольку (дію), оскільки наш параметр моделі говорить нам, що саме так ми можемо отримати максимальну винагороду. І справді, ви зауважуєте, що ви ходите трохи бурчати від прогулянки під дощем з парасолькою, але насправді не нещасливі. З цього ми дізнаємось, що дощ + парасолька бурхливий. Наступного разу, коли буде дощ, ви знову вибираєте випадкове переконання про те, що станеться, коли дощ падає на вашу голову. Цього разу можливо, це зовсім не турбує вас. Однак, як тільки ви перебуваєте на півдорозі до пункту призначення, ви промокаєте мокро, і ви дізнаєтесь, що дощ без парасольки дійсно поганий. Це зменшує вашу невизначеність щодо нещастя, коли буде дощ на голову, адже тепер ви знаєте, що це, мабуть, високо.

Це звучить так просто !!

Так, це не так складно. Важкою частиною є вибірка з параметра моделі моделі задньо. Отримати і підтримувати розподіл за всіма параметрами вашої моделі, що також підходить для вашої конкретної проблеми, важко. Але ... це, безумовно, можливо :).

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.