Яка інтуїція за бета-розподілом?


438

Відмова: Я не статистик, а інженер програмного забезпечення. Більшість моїх знань у статистиці походить від самоосвіти, тому я все ще маю багато прогалин у розумінні понять, які можуть здатися тривіальними для інших людей тут. Тож я був би дуже вдячний, якби відповіді включали менш конкретні терміни та більше пояснень. Уявіть, що ви розмовляєте зі своєю бабусею :)

Я намагаюся зрозуміти природу з бета - розподілу - то , що вона повинна бути використана і як інтерпретувати його в кожному конкретному випадку. Якби ми говорили про, скажімо, звичайний розподіл, можна було б описати його як час прибуття поїзда: найчастіше він прибуває саме вчасно, трохи рідше - на 1 хвилину раніше або на 1 хвилину пізно і дуже рідко він прибуває з різницею 20 хвилин від середнього. Уніфікований розподіл описує, зокрема, шанс кожного квитка в лотереї. Біноміальне розподіл може бути описане монети монети тощо. Але є таке інтуїтивне пояснення про бета - розподілі ?

Скажімо, і . Бета-розподіл у цьому випадку виглядає приблизно так (генерується в R):α=.99β=.5B(α,β)

введіть тут опис зображення

Але що це насправді означає? Вісь Y - це очевидно щільність вірогідності, але що на осі X?

Я дуже вдячний за будь-яке пояснення, будь-то з цим прикладом чи будь-яким іншим.


13
Вісь y не є ймовірністю (що очевидно, оскільки за визначенням ймовірність не може лежати поза інтервалом , але ця ділянка поширюється до і - в принципі - до ). Це щільність ймовірності : ймовірність на одиницю (і ви описали як швидкість). 50 x x[0,1]50xx
whuber

4
@whuber: так, я розумію, що таке PDF - це була просто помилка в моєму описі. Дякуємо за дійсну примітку!
подруга

1
Я спробую знайти посилання, але я знаю, що деякі більш химерні форми для узагальненого розподілу бета-версії з формою мають такі додатки, як фізика. Крім того, ви можете пристосувати їх до експертних даних (хв, режим, макс.) У бідних середовищах, і це часто краще, ніж використання трикутного розподілу (на жаль, часто використовується IE). a+(ba)Beta(α1,α2)
SecretAgentMan

Ви, очевидно, ніколи не їздили з залізничною компанією Deutsche Bahn. Ви були б менш оптимістичними.
відлучення

Відповіді:


621

Коротка версія полягає в тому, що бета-розподіл можна розуміти як представлення розподілу ймовірностей - тобто він представляє всі можливі значення ймовірності, коли ми не знаємо, що це за ймовірність. Ось моє улюблене інтуїтивне пояснення цього:

Кожен, хто стежить за бейсболом, знайомий з середніми показниками ватин - просто кількість разів гравець отримує базовий удар, поділений на кількість разів, коли він піднімається на биті (тож це лише відсоток між 0і 1). .266взагалі вважається середнім середнім рівнем ватин, тоді .300як вважається відмінним.

Уявіть, що у нас є бейсболіст, і ми хочемо передбачити, яким буде його середній сезон у ватинговій формі. Ви можете сказати, що поки що ми можемо просто використовувати його середній показник, але це буде дуже поганим показником на початку сезону! Якщо гравець один раз піднімається на бат і отримує сингла, його середній показник на короткий 1.000час, тоді як якщо він викреслить, його середній показник 0.000. Не стає набагато краще, якщо п’ять-шість разів підніматися до миші - ти можеш отримати щасливу смугу і отримати середній показник 1.000, або нещасливу смугу, і отримати середній показник 0, жоден з яких не є хорошим провісником того, як Ви будете купатись того сезону.

Чому ваш середній показник у перших кількох хітах не є хорошим прогнозувачем вашої кінцевої середньої ваги? Коли перший удар у гравця - це перестрілка, чому ніхто не прогнозує, що він ніколи не отримає удар цілий сезон? Тому що ми йдемо за попередніми очікуваннями. Ми знаємо, що в історії більшість середніх ватин серед сезону коливались між чимось подібним .215і .360, за деякими надзвичайно рідкісними винятками, з обох сторін. Ми знаємо, що якщо на початку гравця буде кілька закреслених поспіль, це може означати, що він закінчиться трохи гірше середнього, але ми знаємо, що він, ймовірно, не відхилиться від цього діапазону.

Враховуючи нашу середню проблему ватин, яку можна представити двочленним розподілом (серією успіхів і невдач), найкращий спосіб представити ці попередні очікування (те, що ми в статистиці називаємо лише попередніми ) - це розподіл Beta - це говорить, перш ніж ми побачили, як гравець вперше розгойдується, ми приблизно очікуємо, що його середній показник буде. Область розповсюдження бета-версії є (0, 1), як імовірність, тому ми вже знаємо, що ми на правильному шляху - але доцільність бета-версії для цього завдання виходить далеко за рамки цього.

Ми очікуємо, що середня середня вага в сезоні гравця буде, швидше за все, приблизно .27, але це розумно може варіюватися від .21до .35. Це можна представити бета-розподілом з параметрами та :β = 219α=81β=219

curve(dbeta(x, 81, 219))

Бета (81, 219)

Я придумав ці параметри з двох причин:

  • Середнє значення -αα+β=8181+219=.270
  • Як ви бачите на сюжеті, цей розподіл лежить майже цілком у межах (.2, .35)- розумному діапазоні для середнього показника.

Ви запитали, що представляє вісь x у графіку щільності розподілу бета-версії - тут він відображає його середнє середнє значення. Таким чином, зауважте, що в цьому випадку не тільки вісь y є ймовірністю (а точніше, щільністю ймовірності), але й вісь x також (середня потужність - це лише ймовірність удару). Бета-розподіл представляє розподіл ймовірностей .

Але ось чому розподіл Beta настільки підходить. Уявіть, що гравець отримує один удар. Зараз його рекорд за сезон 1 hit; 1 at bat. Тоді ми повинні оновити наші ймовірності - ми хочемо перенести всю цю криву на трохи, щоб відобразити нашу нову інформацію. Хоча математика для доведення цього дещо задіяна ( це показано тут ), результат дуже простий . Новий дистрибутив Beta буде:

Beta(α0+hits,β0+misses)

Де і - це параметри, з яких ми почали - тобто 81 і 219. Таким чином, у цьому випадку зросла на 1 (його один удар), тоді як взагалі не збільшився (жодних пропусків ще немає) ). Це означає, що наш новий дистрибутив - , або:α0β0αβBeta(81+1,219)

curve(dbeta(x, 82, 219))

введіть тут опис зображення

Зауважте, що вона ледве не змінилася - зміна справді невидима неозброєним оком! (Це тому, що один хіт насправді нічого не означає).

Однак, чим більше гравець б'є протягом сезону, тим більше крива зміщуватиметься, щоб вмістити нові докази, і тим більше вона звузиться виходячи з того, що у нас є більше доказів. Скажімо, на півдорозі сезону він мав битися 300 разів, потрапляючи в 100 із тих часів. Новий дистрибутив буде , або:Beta(81+100,219+200)

curve(dbeta(x, 81+100, 219+200))

введіть тут опис зображення

Зауважте, крива тепер є тоншою і зміщеною вправо (вище середнє значення ватин), ніж раніше - ми маємо краще розуміння того, що таке середнє значення гравця.

Один з найцікавіших результатів цієї формули - очікуване значення отриманого бета-розподілу, яке в основному є вашою новою оцінкою. Нагадаємо, що очікуване значення розподілу Beta - . Таким чином, після 100 ударів 300 реальних ат-батів очікуване значення нової бета-розподілу становить - зауважте, що вона нижча за наївну оцінку з , але вище , ніж оцінка ви почали сезон з (αα+β81+10081+100+219+200=.303100100+200=.3338181+219=.270). Ви можете помітити, що ця формула еквівалентна доданню "головного старту" до кількості влучень та невдач гравця - ви говорите "почніть його в сезоні з 81 хіт та 219 не попадання в його запис" ).

Таким чином, бета-розподіл найкраще представити ймовірнісний розподіл ймовірностей - той випадок, коли ми не знаємо, що таке ймовірність заздалегідь, але у нас є певні розумні здогадки.


5
@ffriend: Радий, що це допомогло. Сподіваюся, ви будете слідувати бейсболу (інакше мені цікаво, чи зрозуміло це!)
Девід Робінсон

11
Ось подібний приклад від Джона Кука, який використовує двійкові рейтинги продавців Amazon з різною кількістю оглядів. Дискусія про вибір пріоритету в коментарях особливо висвітлює: johndcook.com/blog/2011/09/27/bayesian-amazon/#comments
Димитрій Вікторович Мастеров

4
Слід зазначити, що попередня потреба не повинна бути розподілена бета-версією (якщо ви не переходите з попередньою програмою Джеффрі, - тільки ймовірність повинна бути розповсюджена бета-версією.α0=β0=1/2
Ніл G

4
+ Мені подобається ваше пояснення того, як ви оновлюєте дистрибутив, коли маєте більше даних.
Майк Данлаве

2
@ user27997 Це дало бажане середнє значення .27, і стандартне відхилення, що дуже приблизно реалістично для ватин середніх (приблизно .025). Я, до речі, даю пояснення, як обчислити α і β з потрібної середньої величини та відхилення тут .
Девід Робінсон

48

Розподіл Бети використовуються для моделювання речі , які мають обмежений діапазон, як від 0 до 1.

Прикладами є ймовірність успіху в експерименті, що має лише два результати, наприклад, успіх і невдача. Якщо ви проводите обмежену кількість експериментів, і деякі з них є успішними, ви можете представити те, що говорить вам за допомогою бета-розподілу.

Інший приклад - статистика замовлень . Наприклад, якщо ви генеруєте кілька (скажімо 4) однорідних 0,1 випадкових чисел і сортуєте їх, який розподіл 3-го?

nss>1Beta(s+1,(ns)+1)

Більше про це ...


41

(0,1)

U1Unn(0,1)U(1)U(n)(U1,,Un)U1UnU(1)=min(Ui)U(n)=max(Ui)U(k)Beta(k,n+1k)k=1,,n

Цей результат показує, що бета-розподіли закономірно з'являються в математиці, і в ній є деякі цікаві додатки в математиці.


28

Є дві основні мотивації:

По-перше, бета-розподіл є кон'югованим до розподілу Бернуллі. Це означає, що якщо у вас є невідома ймовірність, як ухил монети, яку ви оцінюєте повторними перегортаннями монети, то ймовірність, викликана невідомим зміщенням послідовністю обертання монети, розподіляється бета-версією.

По-друге, наслідком того, що бета-розподіл є експоненціальним сімейством, є те, що це максимальний ентропійний розподіл для набору достатньої статистики. У випадку бета-розподілу ця статистика є та для в . Це означає, що якщо ви зберігаєте лише середнє вимірювання цих достатніх статистичних даних для набору зразків , то мінімальне припущення, яке ви можете зробити щодо розподілу зразків, полягає в тому, що воно розподілено бета-версією.log(x)log(1x)x[0,1]x1,,xn

Бета-розподіл не є особливим для загального моделювання речей понад [0,1], оскільки багато дистрибутивів можуть бути усічені до цієї підтримки та більш застосовні у багатьох випадках.


23

введіть тут опис зображення

Припустимо, продавець на якомусь веб-сайті електронної комерції отримує 500 рейтингів, з яких 400 - хороші, а 100 - погані.

Ми вважаємо це результатом експерименту Бернуллі довжиною 500, який призвів до 400 успіхів (1 = добре), а основна ймовірність невідома.p

Наївна якість з точки зору рейтингів продавця становить 80%, оскільки 0,8 = 400/500. Але "справжню" якість з точки зору рейтингів ми не знаємо.

Теоретично також продавець з "справжньою" якістю міг би скласти 400 хороших з 500 оцінок.p=77%

Точковий графічний графік на зображенні відображає частоту того, наскільки часто він трапляється при моделюванні, що для даного припущеного "справжнього" 400 з 500 оцінок було хорошим. Смуговий графік - це щільність гістограми результату моделювання.p

І як ви бачите - крива щільності бета-розподілу для і (помаранчевий) щільно оточує гістограму (щільність гістограми для моделювання).β = 100 + 1α=400+1β=100+1

Отже, бета-розподіл по суті визначає ймовірність того, що ймовірність успіху експерименту Бернуллі є огляду на результат експерименту.p

library(ggplot2)

# 90% positive of 10 ratings
o1 <- 9
o0 <- 1
M <- 100
N <- 100000

m <- sapply(0:M/M,function(prob)rbinom(N,o1+o0,prob))
v <- colSums(m==o1)
df_sim1 <- data.frame(p=rep(0:M/M,v))
df_beta1 <- data.frame(p=0:M/M, y=dbeta(0:M/M,o1+1,o0+1))

# 80% positive of 500 ratings
o1 <- 400
o0 <- 100
M <- 100
N <- 100000

m <- sapply(0:M/M,function(prob)rbinom(N,o1+o0,prob))
v <- colSums(m==o1)
df_sim2 <- data.frame(p=rep(0:M/M,v))
df_beta2 <- data.frame(p=0:M/M, y=dbeta(0:M/M,o1+1,o0+1))

ggplot(data=df_sim1,aes(p)) +
    scale_x_continuous(breaks=0:10/10) +

    geom_histogram(aes(y=..density..,fill=..density..),
        binwidth=0.01, origin=-.005, colour=I("gray")) +
    geom_line(data=df_beta1 ,aes(p,y),colour=I("red"),size=2,alpha=.5) +

    geom_histogram(data=df_sim2, aes(y=..density..,fill=..density..),
        binwidth=0.01, origin=-.005, colour=I("gray")) +
    geom_line(data=df_beta2,aes(p,y),colour=I("orange"),size=2,alpha=.5)

http://www.joyofdata.de/blog/an-intuitive-interpretation-of-the-beta-distribution/


3
Дякую за ваш внесок! Мені щось спантеличено: хоча легенда гістограми стверджує, що вони демонструють бета- щільність, але, схоже, вони також заявляють, що вони також описують результати біноміального моделювання ("як часто це відбувається в процесі моделювання"). Але обидві речі - це різні речі, хоча на ілюстрації вони здаються досить близькими. (Це наслідок майже нормальності бета з великими параметрами та теореми про центральну
границю для біноміальних

Це хороший момент! Але я не впевнений, як це перефразовувати. Якби я просто побудував гістограму, то, звичайно, ви б не побачили великої щільності, враховуючи її величину. Так, так, гістограма насправді я гадаю, що не просто зменшено, а фактично (оціночну) щільність вихідної гістограми. Враховуючи кількість запусків, я міг би також визначити коефіцієнт і лінійно його зменшити, але це виглядатиме практично точно так само, як і я (насправді) хочу порівняти - це щільність бета з щільністю результату моделювання ( щільність вихідної гістограми).
Раффаель

8

Поки переважання відповідей охоплювало обґрунтування того, що бета-версії RV створюються як попередні для вибірки пропорцій, і одна розумна відповідь пов’язала бета-версіонали, щоб замовити статистику.

Бета-розподіли також виникають через просту залежність між двома RV-кодами Gamma (k_i, 1), i = 1,2 називає їх X, а Y. X / (X + Y) має бета-розподіл.

Gamma RV вже мають своє обгрунтування в моделюванні часу приїзду для незалежних подій, тому я не буду це зачіпати, оскільки це не ваше питання. Але "частка часу", витрачена на виконання одного з двох завдань, виконаних послідовно, природно піддається бета-розподілу.


1
+1 Дякуємо, що вказали на використання Gamma для формування бета-версії. Я чув, що якщо ви хочете узагальнити бета-версію в диріхле, ви просто покладете більше знаків Гами в знаменник. Можливо, статистик це просто знає, але мені це було дуже корисно, якщо дивитися на довірчі інтервали категоричного спостереження.
Майк Данлаве

4

Моя інтуїція говорить, що вона "важить" як поточну пропорцію успіху " ", так і поточну пропорцію відмови " ": . Де константа дорівнює . , як «вага» за внесок успіху в. , як «вага» за внесок в FAILURE. У вас є двовимірний простір параметрів (один для внеску в успіх і один для внеску невдач), який ускладнює роздуми та розуміння.( 1 - x ) f ( x ; α , β ) = константа x α - 1 ( 1 - x ) β - 1 1 / B ( α , β ) α βx(1x)f(x;α,β)=constantxα1(1x)β11/B(α,β)αβ


3

У наведеному прикладі параметри - альфа = 81 і бета = 219 від попереднього року [81 хіт по 300 у кажанів або (81 і 300 - 81 = 219)]

Я не знаю, як вони називають попереднє припущення 81 хіт і 219 аутів, але англійською мовою, це апріорне припущення.

Зверніть увагу, як у міру просування сезону крива зміщується вліво або вправо і модальна ймовірність зміщується вліво або вправо, але крива все ж є.

Цікаво, чи врешті-решт Laa з великих чисел переймається і приводить в середнє значення до 0,22.

Для загальної оцінки альфа-бета-версії взагалі потрібно взяти повну кількість попередніх подій (у кажанів), середнє значення ватин, як відомо, отримати загальну кількість хітів (альфа), бета або загальний мінус мінус відмов) і вуаля - у вас є своя формула. Потім обробіть додаткові дані, як показано.


2

Бета-розподіл дуже корисний при роботі з розподілом розміру частинок. Це не та ситуація, коли потрібно моделювати розподіл зерна; у цьому випадку краще використовувати розподіл Тана який не обмежений праворуч. F(X)=tanh((x/p)n)

До речі, що відбувається, якщо ви виробляєте розподіл розмірів за допомогою мікроскопічного спостереження і у вас є розподіл частинок за кількістю, а ваша мета - робота з розподілом об’єму? Майже обов'язково отримати оригінальний розподіл у кількості, обмеженій праворуч. Отже, перетворення є більш послідовним, оскільки ви впевнені, що в новому розподілі обсягу не з’являється жоден режим, ані медіана, ані середній розмір поза інтервалом, на якому ви працюєте. Крім того, ви уникаєте ефекту Гренландії Африки.

Перетворення дуже легко, якщо у вас регулярні форми, тобто сфера або призма. Вам слід додати три одиниці до альфа-параметра чисельного бета-розподілу та отримати розподіл гучності.


1
Ласкаво просимо на сайт. Чи це було задумано як відповідь на питання ОП? Чи можете ви уточнити, як це стосується інтуїції, що стоїть за бета-розподілом?
gung

Відредагуйте, щоб уточнити інтуїцію щодо бета-версії.
Glen_b

1

Я думаю, що за бета-розподілом немає інтуїції! Бета-розподіл - це просто дуже гнучкий розподіл із діапазоном FIX! А для цілих a і b це навіть легко впоратися. Також багато особливих випадків бета-версії мають своє рідне значення, як рівномірний розподіл. Отже, якщо дані потрібно моделювати так, або з трохи більшою гнучкістю, то бета - це дуже хороший вибір.


0

В іншому питанні, що стосується бета-розподілу, представлена ​​наступна інтуїція за бета-версією:

Іншими словами, бета-розподіл може розглядатися як розподіл ймовірностей у центрі стриженого розподілу.

Для отримання детальної інформації просимо ознайомитись з повною відповіддю на https://stats.stackexchange.com/a/429754/142758

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.