Коротка версія полягає в тому, що бета-розподіл можна розуміти як представлення розподілу ймовірностей - тобто він представляє всі можливі значення ймовірності, коли ми не знаємо, що це за ймовірність. Ось моє улюблене інтуїтивне пояснення цього:
Кожен, хто стежить за бейсболом, знайомий з середніми показниками ватин - просто кількість разів гравець отримує базовий удар, поділений на кількість разів, коли він піднімається на биті (тож це лише відсоток між 0
і 1
). .266
взагалі вважається середнім середнім рівнем ватин, тоді .300
як вважається відмінним.
Уявіть, що у нас є бейсболіст, і ми хочемо передбачити, яким буде його середній сезон у ватинговій формі. Ви можете сказати, що поки що ми можемо просто використовувати його середній показник, але це буде дуже поганим показником на початку сезону! Якщо гравець один раз піднімається на бат і отримує сингла, його середній показник на короткий 1.000
час, тоді як якщо він викреслить, його середній показник 0.000
. Не стає набагато краще, якщо п’ять-шість разів підніматися до миші - ти можеш отримати щасливу смугу і отримати середній показник 1.000
, або нещасливу смугу, і отримати середній показник 0
, жоден з яких не є хорошим провісником того, як Ви будете купатись того сезону.
Чому ваш середній показник у перших кількох хітах не є хорошим прогнозувачем вашої кінцевої середньої ваги? Коли перший удар у гравця - це перестрілка, чому ніхто не прогнозує, що він ніколи не отримає удар цілий сезон? Тому що ми йдемо за попередніми очікуваннями. Ми знаємо, що в історії більшість середніх ватин серед сезону коливались між чимось подібним .215
і .360
, за деякими надзвичайно рідкісними винятками, з обох сторін. Ми знаємо, що якщо на початку гравця буде кілька закреслених поспіль, це може означати, що він закінчиться трохи гірше середнього, але ми знаємо, що він, ймовірно, не відхилиться від цього діапазону.
Враховуючи нашу середню проблему ватин, яку можна представити двочленним розподілом (серією успіхів і невдач), найкращий спосіб представити ці попередні очікування (те, що ми в статистиці називаємо лише попередніми ) - це розподіл Beta - це говорить, перш ніж ми побачили, як гравець вперше розгойдується, ми приблизно очікуємо, що його середній показник буде. Область розповсюдження бета-версії є (0, 1)
, як імовірність, тому ми вже знаємо, що ми на правильному шляху - але доцільність бета-версії для цього завдання виходить далеко за рамки цього.
Ми очікуємо, що середня середня вага в сезоні гравця буде, швидше за все, приблизно .27
, але це розумно може варіюватися від .21
до .35
. Це можна представити бета-розподілом з параметрами та :β = 219α = 81β= 219
curve(dbeta(x, 81, 219))
Я придумав ці параметри з двох причин:
- Середнє значення -αα + β= 8181 + 219= .270
- Як ви бачите на сюжеті, цей розподіл лежить майже цілком у межах
(.2, .35)
- розумному діапазоні для середнього показника.
Ви запитали, що представляє вісь x у графіку щільності розподілу бета-версії - тут він відображає його середнє середнє значення. Таким чином, зауважте, що в цьому випадку не тільки вісь y є ймовірністю (а точніше, щільністю ймовірності), але й вісь x також (середня потужність - це лише ймовірність удару). Бета-розподіл представляє розподіл ймовірностей .
Але ось чому розподіл Beta настільки підходить. Уявіть, що гравець отримує один удар. Зараз його рекорд за сезон 1 hit; 1 at bat
. Тоді ми повинні оновити наші ймовірності - ми хочемо перенести всю цю криву на трохи, щоб відобразити нашу нову інформацію. Хоча математика для доведення цього дещо задіяна ( це показано тут ), результат дуже простий . Новий дистрибутив Beta буде:
Бета ( α0+ хіти , β0+ пропускає )
Де і - це параметри, з яких ми почали - тобто 81 і 219. Таким чином, у цьому випадку зросла на 1 (його один удар), тоді як взагалі не збільшився (жодних пропусків ще немає) ). Це означає, що наш новий дистрибутив - , або:α0β0αβБета (81+1,219)
curve(dbeta(x, 82, 219))
Зауважте, що вона ледве не змінилася - зміна справді невидима неозброєним оком! (Це тому, що один хіт насправді нічого не означає).
Однак, чим більше гравець б'є протягом сезону, тим більше крива зміщуватиметься, щоб вмістити нові докази, і тим більше вона звузиться виходячи з того, що у нас є більше доказів. Скажімо, на півдорозі сезону він мав битися 300 разів, потрапляючи в 100 із тих часів. Новий дистрибутив буде , або:Бета (81+100,219+200)
curve(dbeta(x, 81+100, 219+200))
Зауважте, крива тепер є тоншою і зміщеною вправо (вище середнє значення ватин), ніж раніше - ми маємо краще розуміння того, що таке середнє значення гравця.
Один з найцікавіших результатів цієї формули - очікуване значення отриманого бета-розподілу, яке в основному є вашою новою оцінкою. Нагадаємо, що очікуване значення розподілу Beta - . Таким чином, після 100 ударів 300 реальних ат-батів очікуване значення нової бета-розподілу становить - зауважте, що вона нижча за наївну оцінку з , але вище , ніж оцінка ви почали сезон з (αα + β81 + 10081 + 100 + 219 + 200= .303100100 + 200= .3338181 + 219= .270). Ви можете помітити, що ця формула еквівалентна доданню "головного старту" до кількості влучень та невдач гравця - ви говорите "почніть його в сезоні з 81 хіт та 219 не попадання в його запис" ).
Таким чином, бета-розподіл найкраще представити ймовірнісний розподіл ймовірностей - той випадок, коли ми не знаємо, що таке ймовірність заздалегідь, але у нас є певні розумні здогадки.