Якби я взяв цілий набір даних і розділив загальну кількість кульок, які вивели батсмена, на загальну кількість збитих куль, я можу побачити, що я мав би середню ймовірність того, що боулер вийде з ботсмена - це буде приблизно 0,03 (сподіваємось Я вже не помилився?)
На жаль, це, можливо, вже не саме те, що ви шукаєте.
Припустимо, у нас є одна чаша, і два летючі миші: Дон Бредмен і я. (Я дуже мало знаю про крикет, тому якщо я роблю щось тут, дайте мені знати.) Ігри проходять приблизно так:
- Дон іде до вати, і виходить на 99-ту миску.
- Я йду до вати, і я негайно виходжу.
- Дон іде до вати, і виходить на 99-ту миску.
- Я йду до вати, і я негайно виходжу.
У цьому випадку з 200 мисок є чотири аути, тому гранична ймовірність того, що качан вийде з копальника, оцінюється як 4/200 = 2%. Але насправді ймовірність того, що Дон вибув, схожа на 1%, тоді як моя - 100%. Тож якщо ви вибрали ботсмена та кегель навмання, то ймовірність того, що цей боулінг цього разу виграє цього летючого майстра, більше схожа на (50% шансів, що ви вибрали Дон) * (1% шансу він вибратися) + (50% шансу, що ви вибрали) мені) * (100% шанс вийти) = 50,05%. Але якщо ви вибрали крок навмання, то це 2% шанси, що він вийде. Тому вам потрібно добре подумати, про яку з тих моделей вибірки ви думаєте.
У всякому разі, ваша пропозиція не шалена. Більш символічно, нехай - боулер, а - кажан; нехай - ймовірність того, що вийде . Тоді ви говорите:бмf( б , м )бм
f( b , m ) =Ем'[ ф( b ,м') ]Еб'[ ф(б', м ) ]Еб',м'[ ф(б',м') ].
Це має бажане властивість, яке:
аналогічно послідовно, якщо ви берете кошти лише на або .
Еб , м[ ф( b , m ) ] =Еб ,м'[ ф( b ,м') ]Еб', м[ ф(б', м ) ]Еб',м'[ ф(б',м') ]=Еб , м[ ф( б , м ) ] ;
бм
Зверніть увагу, що в цьому випадку ми можемо призначити
Ваше припущення полягає в тому, що ви можете досить добре спостерігати і з даних. Поки (а) у вас є достатньо ігор [якими ви займаєтесь] і (б) гравці грають один з одним із досить однаковою частотою, тоді це добре.
С: =Еб , м[ ф( b , m ) ]г( б ) : =Ем[ ф( b , m ) ] /С--√h ( m ) : =Еб[ ф( b , m ) ] /С--√щоб ф( b , m ) = g( b )год ( м ) .
г( b )год ( м )
Щоб детальніше зупинитися на (б): уявіть, що у вас є дані з купою професійних ігор та з купою ігор мене, що грають з друзями. Якщо немає перекриття, можливо, я виглядаю дуже добре порівняно зі своїми друзями, тож, може, ти думаєш, що я набагато кращий за найгіршого професійного гравця. Це, очевидно, помилково, але у вас немає даних, які б спростували це. Якщо у вас є трохи перекриття, де я один раз грав проти професійного гравця і був знищений, то ці дані підтримують рейтинг мене та моїх друзів як гірше, ніж профі, але ваш метод цього не враховує. Технічно проблема полягає в тому, що ви припускаєте, що у вас є хороший зразок для, наприклад, , але ваш розподіл є упередженим.Еб'[ ф(б', м ) ]б'
Звичайно, ваші дані не виглядатимуть так погано, але залежно від структури ліги чи будь-чого іншого, це може мати деякі елементи цієї проблеми.
Ви можете спробувати працювати навколо цього з іншим підходом. Запропонована модель для насправді є примірником матричної факторизації матриць низького рангу, поширеною при спільній фільтрації , як у проблемі Netflix . Там ви вибираєте функцію і яка має розмірність , і представляє . Ви можете інтерпретувати як складність вашої моделі з одного "показника якості" до балів у декількох вимірах: можливо, певні келихи краще від певних типів летючої миші. (Це було зроблено, наприклад, для ігор в НБА .)fг( b )год ( м )rf( b , m ) = g( б))Тгод ( м )r > 1
Причина, яку вони називають матричною факторизацією, полягає в тому, що якщо ви робите матрицю з такою ж кількістю рядків, як казани і стільки стовпців, як митці, ви можете записати це якЖ
⎡⎣⎢⎢⎢⎢⎢f(б1,м1)f(б2,м1)⋮f(бN,м1)f(б1,м2)f(б2,м2)⋮f(бN,м2)……⋱…f(б1,мМ)f(б2,мМ)⋮f(бN,мМ)⎤⎦⎥⎥⎥⎥⎥Ж=⎡⎣⎢⎢г(б1)⋮г(бN)⎤⎦⎥⎥Г⎡⎣⎢⎢год (м1)⋮год (мМ)⎤⎦⎥⎥ТНТ
,
де ви враховані матриці в один і один .
N× MЖN× rГМ× rН
Звичайно, ви не можете безпосередньо спостерігатиЗвичайна модель полягає в тому, що ви можете спостерігати галасливі записи навмання; у вашому випадку, ви отримаєте спостерігати нічию з біноміального розподілу з випадковим числом випробувань для кожного запису .ЖЖЖ
Ви можете побудувати імовірнісну модель, наприклад, сказати:
Гя к∼ N( 0 ,σ2Г)Нj k∼ N( 0 ,σ2Н)Жi j=ГТiНjRi j∼ Бi n o m i a l (нi j,Жi j)
де спостерігаються і , і ви, певно, поставите кілька гіперпріорів над / і зробите висновок, наприклад, в
Стен .
нi jRi jσГσН
Це не ідеальна модель: для одного вона ігнорує, що співвідноситься з балами (як я вже згадував у першому розділі), і що ще важливіше, вона не обмежує бути в (ви, ймовірно, використовуєте логістичну сигмоіду чи подібну для цього). Пов'язана стаття, що має більш складні пріори для та (але це не використовує біноміальну ймовірність): Салахутдінов і Мніх, байєсівська імовірнісна матрична множина за допомогою ланцюга Маркова Монте-Карло , ICML 2008. ( doi / авторський pdf )нЖi j[ 0 , 1 ]ГН