Моделювання крикетів для вигулу крикетів, що витягують летючих мит


9

У мене є набір даних, в якому детально описується велика кількість ігор з крикетом (кілька тисяч). У крикет "котелки" кілька разів кидають м'яч підряд "летючі миші". Купальник намагається витягнути летючого митця "назовні". У цьому відношенні він досить схожий на глечики та клярі в бейсболі.

Якби я взяв цілий набір даних і поділив загальну кількість кульок, які вивели батсмена, на загальну кількість кульок, що збилися, я можу побачити, що я мав би середню ймовірність того, що боулер вийде з ботсмена - це буде приблизно 0,03 ( сподіваюся, я вже не помилився?)

Що мене цікавить, це те, що я можу зробити, щоб спробувати обчислити ймовірність того, що конкретний батсмен викине конкретний казан на наступному балі.

Набір даних є досить великим, що будь-який даний котел буде згорнутий тисячі кульок для широкого кола летючих мишей. Тож я вважаю, що я міг би просто поділити кількість аутів, що досягається котлом, на кількість кульок, які він зібрав, щоб обчислити нову ймовірність того, що конкретний котел вийде з наступного кулі.

Моя проблема полягає в тому, що набір даних не є достатньо великим, щоб гарантувати, що дана котел розіграв статистично значну кількість кульок на будь-якому даному миші. Тож, якщо мені цікаво обчислити ймовірність виходу для конкретної казанки, що стоїть перед певним митцем, я не думаю, що це не можна зробити так само спрощеним способом.

Моє питання - чи дійсний наступний підхід:

  • По всьому набору даних ймовірність виходу м'яча становить 0,03.

  • Якщо я порахую, що середня котел A має ймовірність потрапити на 0,06 (тобто вдвічі більше, ніж середній боулер),

  • і в середньому кажан B мав ймовірність бути поза 0,01 (на третину вірогідніше, ніж у середнього летника),

  • то чи правда сказати, що ймовірність того, що конкретний бэтсмен вийде на наступну кульку до цієї конкретної казанки, буде 0,06 * (0,01 / 0,03) = 0,02?


Якщо боулер вирішив кілька разів кидати м'яч, вони швидко опинилися б у змозі знову скласти миску в грі.
Glen_b -Встановіть Моніку

Відповіді:


2

Якби я взяв цілий набір даних і розділив загальну кількість кульок, які вивели батсмена, на загальну кількість збитих куль, я можу побачити, що я мав би середню ймовірність того, що боулер вийде з ботсмена - це буде приблизно 0,03 (сподіваємось Я вже не помилився?)

На жаль, це, можливо, вже не саме те, що ви шукаєте.

Припустимо, у нас є одна чаша, і два летючі миші: Дон Бредмен і я. (Я дуже мало знаю про крикет, тому якщо я роблю щось тут, дайте мені знати.) Ігри проходять приблизно так:

  • Дон іде до вати, і виходить на 99-ту миску.
  • Я йду до вати, і я негайно виходжу.
  • Дон іде до вати, і виходить на 99-ту миску.
  • Я йду до вати, і я негайно виходжу.

У цьому випадку з 200 мисок є чотири аути, тому гранична ймовірність того, що качан вийде з копальника, оцінюється як 4/200 = 2%. Але насправді ймовірність того, що Дон вибув, схожа на 1%, тоді як моя - 100%. Тож якщо ви вибрали ботсмена та кегель навмання, то ймовірність того, що цей боулінг цього разу виграє цього летючого майстра, більше схожа на (50% шансів, що ви вибрали Дон) * (1% шансу він вибратися) + (50% шансу, що ви вибрали) мені) * (100% шанс вийти) = 50,05%. Але якщо ви вибрали крок навмання, то це 2% шанси, що він вийде. Тому вам потрібно добре подумати, про яку з тих моделей вибірки ви думаєте.


У всякому разі, ваша пропозиція не шалена. Більш символічно, нехай - боулер, а - кажан; нехай - ймовірність того, що вийде . Тоді ви говорите:бмf(б,м)бм

f(б,м)=Ем'[f(б,м')]Еб'[f(б',м)]Еб',м'[f(б',м')].

Це має бажане властивість, яке: аналогічно послідовно, якщо ви берете кошти лише на або .

Еб,м[f(б,м)]=Еб,м'[f(б,м')]Еб',м[f(б',м)]Еб',м'[f(б',м')]=Еб,м[f(б,м)];
бм

Зверніть увагу, що в цьому випадку ми можемо призначити Ваше припущення полягає в тому, що ви можете досить добре спостерігати і з даних. Поки (а) у вас є достатньо ігор [якими ви займаєтесь] і (б) гравці грають один з одним із досить однаковою частотою, тоді це добре.

С: =Еб,м[f(б,м)]г(б): =Ем[f(б,м)]/Сгод(м): =Еб[f(б,м)]/Стак що f(б,м)=г(б)год(м).
г(б)год(м)

Щоб детальніше зупинитися на (б): уявіть, що у вас є дані з купою професійних ігор та з купою ігор мене, що грають з друзями. Якщо немає перекриття, можливо, я виглядаю дуже добре порівняно зі своїми друзями, тож, може, ти думаєш, що я набагато кращий за найгіршого професійного гравця. Це, очевидно, помилково, але у вас немає даних, які б спростували це. Якщо у вас є трохи перекриття, де я один раз грав проти професійного гравця і був знищений, то ці дані підтримують рейтинг мене та моїх друзів як гірше, ніж профі, але ваш метод цього не враховує. Технічно проблема полягає в тому, що ви припускаєте, що у вас є хороший зразок для, наприклад, , але ваш розподіл є упередженим.Еб'[f(б',м)]б'

Звичайно, ваші дані не виглядатимуть так погано, але залежно від структури ліги чи будь-чого іншого, це може мати деякі елементи цієї проблеми.


Ви можете спробувати працювати навколо цього з іншим підходом. Запропонована модель для насправді є примірником матричної факторизації матриць низького рангу, поширеною при спільній фільтрації , як у проблемі Netflix . Там ви вибираєте функцію і яка має розмірність , і представляє . Ви можете інтерпретувати як складність вашої моделі з одного "показника якості" до балів у декількох вимірах: можливо, певні келихи краще від певних типів летючої миші. (Це було зроблено, наприклад, для ігор в НБА .)fг(б)год(м)rf(б,м)=г(б)Тгод(м)r>1

Причина, яку вони називають матричною факторизацією, полягає в тому, що якщо ви робите матрицю з такою ж кількістю рядків, як казани і стільки стовпців, як митці, ви можете записати це якЖ

[f(б1,м1)f(б1,м2)f(б1,мМ)f(б2,м1)f(б2,м2)f(б2,мМ)f(бN,м1)f(бN,м2)f(бN,мМ)]Ж=[г(б1)г(бN)]Г[год(м1)год(мМ)]ТНТ
, де ви враховані матриці в один і один .N×МЖN×rГМ×rН

Звичайно, ви не можете безпосередньо спостерігатиЗвичайна модель полягає в тому, що ви можете спостерігати галасливі записи навмання; у вашому випадку, ви отримаєте спостерігати нічию з біноміального розподілу з випадковим числом випробувань для кожного запису .ЖЖЖ

Ви можете побудувати імовірнісну модель, наприклад, сказати:

ГiкN(0,σГ2)НjкN(0,σН2)Жij=ГiТНjRijБiномiал(нij,Жij)
де спостерігаються і , і ви, певно, поставите кілька гіперпріорів над / і зробите висновок, наприклад, в Стен .нijRijσГσН

Це не ідеальна модель: для одного вона ігнорує, що співвідноситься з балами (як я вже згадував у першому розділі), і що ще важливіше, вона не обмежує бути в (ви, ймовірно, використовуєте логістичну сигмоіду чи подібну для цього). Пов'язана стаття, що має більш складні пріори для та (але це не використовує біноміальну ймовірність): Салахутдінов і Мніх, байєсівська імовірнісна матрична множина за допомогою ланцюга Маркова Монте-Карло , ICML 2008. ( doi / авторський pdf )нЖij[0,1]ГН


1
@Ravi Це було довго, напевно, не було чітко пояснено, і я не знаю, який рівень ви маєте подібні проблеми. Але сміливо задайте питання про будь-які незрозумілі частини. Крім того, оскільки ваші дані "один на один", ви можете також розглянути можливість використання Elo .
Дугал

Дякую, що знайшли час, щоб написати цю дуже якісну відповідь. Правда, я зараз знаю лише основні статистичні дані, тому багато з цього для мене нового. Однак це дуже чітко показує мені, про що слід читати, щоб правильно зрозуміти цю проблему, і саме це я хотів. Сподіваюся, через кілька днів (або років!) Навчання я зможу краще зрозуміти вашу відповідь.
Раві

Дякую. У мене було питання про Ело. Оскільки давно я відкрив нове запитання [тут] :( stats.stackexchange.com/questions/230518/… )
Раві

0

Ви не можете зробити висновок про правильну ймовірність того, що B вийде з огляду на те, що A є катером, якщо A і B ніколи не зустрічалися на полі лише на основі середніх показників з іншими гравцями.


3
Хоча ви можете бути правильними щодо крикету, можливість рейтингових систем в інших іграх, таких як шахи, передбачати результати матчів між людьми, які ніколи не змагалися, говорить про інше.
whuber

2
@whuber Погодився - я думаю, це буде приблизно так само правдивим щодо крикету, як майже будь-яке інше змагальне взаємодія. Cricket НЕ що різні.
Glen_b -Встановіть Моніку
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.