Я дам це зняти, і сподіваюся, вам сподобається! Нижче наведено кілька формул, які можуть вас налякати. Я не сподіваюся на це, тому що я зроблю все можливе, щоб пояснити їх найпростішим способом.
Це дві формули:
- Ймовірність:P(r|θ,a,x)
- А задній:P(θ|D)
TL; DR
Проба Томпсона дозволяє вам
- Виберіть випадковий параметр моделі з усіх параметрів моделі, які ви вважаєте можливими.
- Дійте один раз відповідно до конкретного параметру моделі.
- Слідкуйте за винагородою, яку ви отримуєте за цей конкретний параметр моделі.
- Навчіться цього нового досвіду та оновіть переконання щодо можливих параметрів моделі.
Ймовірність ??
Ймовірність - це те, що визначає, наскільки ймовірні речі. У цьому випадку ймовірність говорить про те, наскільки ймовірно , що ми отримаємо винагороду якщо відіграємо дію в контексті . Наприклад, якщо йде дощ (контекст!) І ти береш парасольку (дія!), Ти залишаєшся сухим (нагорода! :)). З іншого боку, якщо не йде дощ (контекст!) І ти береш парасольку (дія!), Ти повинен мати зайву вагу (негативна винагорода! :(). Тож вірогідність - це головне, що ти хочеш зрозуміти. Якщо ви знаєте все про ймовірність, то легко діяти оптимально.rax
Що про те дивне коло ??
Як ви могли помітити, я нічого не писав про те дивне коло яке називають тетою. (Математики мають звичку вказувати, які частини найважчі, даючи їм грецькі букви, що ускладнює розуміння). Це представляє параметр моделі. Ці параметри використовуються, коли взаємозв'язок між контекстом + діями та винагородою складніше. Наприклад, параметр моделі може бути на скільки знизиться ваша винагорода, якщо 1 мм дощу випаде на вашу голову. Інший параметр моделі може зазначати, на скільки знизиться ваша винагорода, якщо ви візьмете парасольку. Я щойно сказав, що ймовірність - це головне, що ти хочеш зрозуміти; і центральні для ймовірності - параметри моделі. Якщо ви знаєте параметри моделіθθθ, ви знаєте, як контекст + дії стосуються винагороди, і легко діяти оптимально.
То як ми можемо познайомитися з цими параметрами моделі, щоб я міг отримати максимальну винагороду ??
Це важливе питання для багатогранної бандитської проблеми. Власне, він має дві частини. Ви хочете точно ознайомитись з параметрами моделі, досліджуючи всі дії різних типів у різних контекстах. Але якщо ви вже знаєте, яка дія хороша для конкретного контексту, ви хочете скористатися цією дією та отримати якомога більше винагороди. Тож якщо ви не впевнені в параметрах моделі , можливо, вам доведеться провести додаткові дослідження. Якщо ви майже впевнені в параметрах нашої моделі , ви також впевнені, які дії потрібно вжити. Це відоме як компроміс від розвідки та експлуатації.θθ
Ви нічого не говорили про цю задню частину
Ключовим фактором цієї оптимальної поведінки є ваша (не) впевненість щодо параметрів моделі . А задній говорить саме так: враховуючи всі попередні нагороди, отримані за попередні дії у попередніх контекстах, скільки ви знаєте про . Наприклад, якщо ви ніколи не були на вулиці, ви не знаєте, яким нещасним ви стаєте, коли на голову падає дощ. Іншими словами, ви дуже не впевнені у параметрі моделі нещастя, коли дощ-на-голові. Якщо ви часом бували під дощем, з парасолькою і без неї, ви можете почати дізнаватися щось про цей незрозумілий параметр моделі.θθ
Тепер, що пропонує Томпсон Семпінг, щоб зробити з усіма цими невизначеностями ??
Thomson Sampling пропонує щось дуже просте: просто виберіть параметр випадкової моделі зі своєї задньої частини, вживайте заходів і спостерігайте за тим, що відбувається. Наприклад, коли ви ніколи раніше не були на вулиці, параметром нещастя, коли буде дощ на голову, може бути що завгодно. Тож ми просто вибираємо одне, вважаємо, що отримуємо справді нещасні, коли на голову падає дощ. Ми бачимо, що йде дощ (контекст), тому ми беремо парасольку (дію), оскільки наш параметр моделі говорить нам, що саме так ми можемо отримати максимальну винагороду. І справді, ви зауважуєте, що ви ходите трохи бурчати від прогулянки під дощем з парасолькою, але насправді не нещасливі. З цього ми дізнаємось, що дощ + парасолька бурхливий. Наступного разу, коли буде дощ, ви знову вибираєте випадкове переконання про те, що станеться, коли дощ падає на вашу голову. Цього разу можливо, це зовсім не турбує вас. Однак, як тільки ви перебуваєте на півдорозі до пункту призначення, ви промокаєте мокро, і ви дізнаєтесь, що дощ без парасольки дійсно поганий. Це зменшує вашу невизначеність щодо нещастя, коли буде дощ на голову, адже тепер ви знаєте, що це, мабуть, високо.
Це звучить так просто !!
Так, це не так складно. Важкою частиною є вибірка з параметра моделі моделі задньо. Отримати і підтримувати розподіл за всіма параметрами вашої моделі, що також підходить для вашої конкретної проблеми, важко. Але ... це, безумовно, можливо :).