Байєсівські та частофілістські інтерпретації ймовірності


37

Чи може хтось дати добру рентабельність відмінностей між байесівськими та частістськими підходами до ймовірності?

З того, що я розумію:

Подання часто відвідувачів полягає в тому, що дані є повторюваною випадковою вибіркою (випадковою змінною) із певною частотою / ймовірністю (яка визначається як відносна частота події, оскільки кількість випробувань наближається до нескінченності). Основні параметри та ймовірності залишаються постійними під час цього повторюваного процесу і що зміна обумовлена ​​мінливістю Xn а не розподілом ймовірностей (що фіксується для певної події / процесу).

Байєсівський погляд полягає в тому, що дані фіксуються, тоді як частота / ймовірність певної події може змінюватися, тобто параметри розподілу змінюються. Фактично отримані вами дані змінюють попередній розподіл параметра, який оновлюється для кожного набору даних.

Мені здається, що частістський підхід є більш практичним / логічним, оскільки видається розумним, що події мають конкретну ймовірність і що різниця є у нашому вибірці.

Крім того, більшість аналізів даних, які проводяться в дослідженнях, зазвичай проводяться за допомогою частотистського підходу (тобто довірчих інтервалів, тестування гіпотез з р-значеннями тощо), оскільки це легко зрозуміло.

Мені було просто цікаво, чи міг би хтось дати мені короткий підсумок їх інтерпретації байєсівського та частого періодичного підходу, включаючи байєсівські статистичні еквіваленти частотистського p-значення та інтервал довіри. Крім того, оцінюються конкретні приклади, коли 1 спосіб був би кращим за інший.


1
У деяких місцях на вас нападе розлючений натовп, якщо ви скажете, що частістський підхід до статистичного висновку є більш практичним. (Гаразд, можливо, в цьому твердженні є якась гіпербола.) Я не згоден, що довірчі інтервали зрозуміти легше, ніж задні ймовірнісні інтервали. ( У всякому разі, см моя відповідь нижче , я думаю , що він отримує прямо до суті справи, хоча немає математики за знаючи , що. є.)1/2
Michael Hardy

@DilipSarwate так, я пам’ятаю про це наступним разом. але здається, що я цього разу отримав кілька хороших відповідей, тому, можливо, я спробую закінчити тут: D
BYS2

Дивіться також stats.stackexchange.com/q/173056/35989
Тім

Відповіді:


27

У частістському підході стверджується, що єдиний сенс, в якому ймовірності мають значення, - це граничне значення кількості успіхів у послідовності випробувань, тобто як

p=limнкн

де - кількість успіхів і n - кількість випробувань. Зокрема, не має сенсу пов'язувати розподіл ймовірностей з aкн параметром .

Наприклад, розглянемо зразки з розподілу Бернуллі з параметром p (тобто вони мають значення 1 з ймовірністю p і 0 з ймовірністю 1 - p ). Ми можемо визначити зразок успіху бутиХ1,,Хнpp1-p

p^=Х1++Хнн

і говорити про розподіл р обумовлюють значень р , але це не має сенсу , щоб інвертувати це питання і почати говорити про розподіл ймовірностей р обумовлює спостережуваного значення рp^ppp^ . Зокрема, це означає, що, обчислюючи довірчий інтервал, ми інтерпретуємо кінці інтервалу довіри як випадкові змінні, і ми говоримо про "ймовірність того, що інтервал включає істинний параметр", а не про "ймовірність того, що параметр є всередині довірчого інтервалу ".

У байєсівському підході ми трактуємо розподіли ймовірностей як кількісні показники нашої невизначеності щодо світу. Зокрема, це означає, що тепер ми можемо осмислено говорити про розподіл ймовірностей параметрів, оскільки, хоча параметр фіксований, наші знання про його справжнє значення можуть бути обмеженими. У наведеному вище прикладі, ми можемо инвертировать розподіл ймовірностей з допомогою закону Байеса, щоб датиf(p^p)

f(pp^)задній=f(p^p)f(p^)коефіцієнт ймовірностіf(p)до

Приналежність полягає в тому, що ми маємо внести до нашого аналізу попередній розподіл - це відображає наше переконання про значення перед тим, як побачити фактичні значення X i . Роль пріоритету часто критикується у частістському підході, оскільки стверджується, що він вводить суб'єктивність у інакше суворий та об'єктний імовірний світ.pХi

У байєсівському підході більше не йдеться про довірчі інтервали, але замість достовірних інтервалів, які мають більш природну інтерпретацію - з огляду на 95% достовірний інтервал, ми можемо призначити 95% вірогідність того, що параметр знаходиться всередині інтервалу.


6
З іншого боку, одна критика частолістського підходу полягає в тому, що він не збігається з тим, як люди думають про ймовірність. Поміркуйте, як люди говорять про "ймовірність" разових подій, як вимирання динозаврів, або "ймовірність" "впевненості", як сонце, що завтра сходить ...

14
Було б також непогано зазначити, що розрив між часто-частістським та байєсівським підходами на практичному рівні не настільки великий: будь-який частолістський метод, який дає корисні та неузгоджені результати, як правило, може бути даний байєсівською інтерпретацією, і навпаки . Зокрема, переробка частотистського обчислення в байєсівських термінах, як правило, дає правило для обчислення заднього з урахуванням певного попереднього . Тоді можна запитати: "Ну, чи це раніше насправді розумне припускати?"
Ільмарі Каронен

Thank you for this answer, it is in line with my general understanding. However, I was wondering if you could clarify one thing, how would you find the probability of the data/sample success rate (f (p-hat)) in Baye's law formula? I have read through some worked examples and I generally understand how to derive f(p-hat | p) and the prior f(p) but f(p-hat) eludes me so far. If you had some links to some resources then that would be terrific :D. Thanks!
BYS2

@IlmariKaronen. Гаразд, ви кажете, що скажіть, якби у мене було дослідження, яке дало певні результати, виражені як довірчі інтервали, я міг би переробити дані і зробити замість цього байєсівський аналіз? а результати були б більш-менш послідовними?
BYS2

Те, що говорить @Karonen, не зовсім точне. Дві найпоширеніші частістські методи - це точкові оцінки (як правило, максимальна оцінка ймовірності) і тести гіпотез, і жодному з них реально не можна дати інтерпретацію природного баєса.
Жуль

20

Ви маєте рацію щодо своєї інтерпретації ймовірності частоти лікарів: випадковість у цій установці лише через неповну вибірку. З точки зору Байєса, ймовірності є "суб'єктивними", оскільки вони відображають невизначеність агента щодо світу. Не зовсім правильно сказати, що параметри розподілів "змінюються". Оскільки у нас немає повної інформації про параметри, наша невизначеність щодо них змінюється, оскільки ми збираємо більше інформації.

Обидві інтерпретації корисні в додатках, і що корисніше залежить від ситуації. Ви можете ознайомитись у блозі Ендрю Гелмана щодо ідей щодо програм Bayesian. У багатьох ситуаціях, які байєси називають "пріорами", часто лікарі називають "регуляризацією", і тому (з моєї точки зору) хвилювання може досить швидко покинути приміщення. Насправді, згідно з теоремою Бернштейна фон Мізеса, байєсівський та частотний діагноз фактично є асимптотично еквівалентними за досить слабких припущень (хоча, зокрема, теорема не вдається для нескінченномірних розподілів). Ви можете знайти тут багато довідок про це тут .

Оскільки ви попросили інтерпретацій: Я думаю, що точка зору Частота має велике значення при моделюванні наукових експериментів, як це було зроблено. Що стосується деяких застосувань у машинному навчанні або для моделювання індуктивних міркувань (або навчання), ймовірність Байєса має для мене більше сенсу. Існує багато ситуацій, коли моделювання події з фіксованою, "справжньою" ймовірністю здається малоймовірним.

Для прикладу іграшки, що повертається до Лапласа , розглянемо ймовірність того, що завтра сонечко зійде. З точки зору частота, ми повинні поставити щось на кшталт нескінченно-багато всесвітів, щоб визначити ймовірність. Як байєсів, існує лише одна Всесвіт (або, принаймні, їх не повинно бути багато). Нашу невпевненість у відношенні сонця посилюється нашою дуже, дуже сильною вірою в те, що воно завтра знову підніметься.


17

Байєсівська інтерпретація ймовірності - це ступінь переконання.

A Bayesian may say that the probability that there was life on Mars a billion years ago is 1/2.

A frequentist will refuse to assign a probability to that proposition. It is not something that could be said to be true in half of all cases, so one cannot assign probability 1/2.


2
There is probably no better place to ponder the limitations of the more narrow frequentist approach vs. the generality of the Bayesian approach (extension of logic) than the classic paper by R. T. Cox.
gwr

2
Cox also wrote a book about this, titled Algebra of Probable Inference, published by Johns Hopkins. @gwr
Michael Hardy

1
Ian Hacking said it well in his book "An Introduction to Probability and Inductive Logic". He said: "The Bayesian is able to attach personal probabilities, or degrees of belief, to individual propositions. The hard-line frequency dogmatist thinks that probabilities can be attached only to a series of events."
Buttons840

9

Chris gives a nice simplistic explanation that properly differentiates the two approaches to probability. But frequentist theory of probability is more than just looking at the long range proportion of successes. We also consider data sampled at random from a distribution and estimate parameters of the distribution such as the mean and variance by taking certain types of averages of the data (e.g. for the mean it is the arithmetic average of the observations. Frequentist theory associates a probability with the estimate that is called the sampling distribution.

In frequency theory we are able to show for parameters like the mean that are taken by averaging from the samples that the estimate will converge to the true parameter. The sampling distribution is used to describe how close the estimate is to the parameter for any fixed sample size n. Close is defined by a measure of accuracy (e.g. mean square error).

At Chris points out for any parameter such as the mean the Bayesian attaches a prior probability distribution on it. Then given the data Bayes' rule is used to compute a posterior distribution for the parameter. For the Bayesian all inference about the parameter is based on this posterior distribution.

Frequentists construct confidence intervals which are intervals of plausible values for the parameter. Their construction is based on the frequentist probability that if the process used to generate the interval were repeated many times for independent samples the proportion of intervals that would actually include the true value of the parameter would be at least some prespecified confidence level (e.g. 95%).

Bayesians use the a posteriori distribution for the parameter to construct credible regions. These are simply regions in the parameter space over which the posterior distibution is integrated to get a prespecified probability (e.g. 0.95). Credible regions are interpreted by Bayesians as regions that have a high (e.g. the prespecified 0.95) probability of including the true value of the parameter.


1
Credible regions are interpreted by Bayesians as regions that have a high (e.g. the prespecified 0.95) probability of including the true value of the parameter. How is this possible if the parameter is a random variable?

@Procrastinator Добре, можливо, ви хочете, щоб я просто сказав, що він охоплює високу наперед визначену частку розподілу параметрів. Але якщо X - випадкова величина з розподілом f, і ми побудуємо для неї достовірну область, то область дійсно представляє ймовірність того, що реалізація випадкової величини буде лежати в області.
Майкл Р. Черник

I agree with this explanation. It is important to clarify that a realisation of the random variable is not the true value of the parameter.

@Procrastinator - це цікавий момент, який ви піднімаєте. Однак, як я розумію, байєсівська ймовірність полягає в тому, що багато байесів погоджуються з класичними статистиками про те, що існує єдине ІСТИНЕ значення відповідного параметра (воно фіксовано, але невідомо). Саме невизначеність цього параметра поширюється через наш недосконалий стан знань. Тож якщо ви думаєте про це таким чином, то початкове твердження Майкла Черника справедливе, ви не думаєте?
BYS2

2
@MichaelChernick Я думаю, що існує помилкова інтерпретація того, що означає байєсівський регіон надійності. Припустимо, що справжнє значення параметраθ0=1 і ви вибираєте уніформу до початку (1,100). Тому жоден інтервал достовірності не міститиме справжнього значення параметра, що суперечить вашим міркуванням.

2

З точки зору "реального світу", я знаходжу одну головну різницю між частофілістським та класичним чи байєсівським "рішенням", яке стосується щонайменше трьох основних сценаріїв. Різниця у виборі методології залежить від того, чи потрібне вам рішення, на яке впливає ймовірність населення, або рішення, на яке впливає індивідуальна ймовірність. Приклади нижче:

  1. Якщо є відома 5% вірогідність того, що чоловіки, старші 40 років, помруть в даний рік і вимагатимуть виплат за страхування життя, страхова компанія може використовувати 5% -ний відсоток НАСЕЛЕННЯ для оцінки своїх витрат, але сказати, що кожен чоловік чоловіком старше 40 років має лише 5% шанс померти ... безглуздо ... Тому що 5% мають 100% ймовірність померти - що є частістським підходом. На індивідуальному рівні подія або трапляється (100% вірогідність), або не відбувається (0% вірогідність) Однак, виходячи з цієї обмеженої інформації, неможливо передбачити осіб, які мають 100% вірогідність смерті, і 5 % "усередненої" ймовірності населення марно на індивідуальному рівні.

  2. Вищенаведений аргумент однаковою мірою стосується і пожеж у будинках, тому спринклери потрібні у всіх будинках населення.

  3. Обидва вищезазначені аргументи однаковою мірою застосовуються і до бриджів, пошкоджень або "злому" інформаційних систем. Відсоток населення марний, тому всі системи повинні бути захищені.


2
Я не визнаю частолістського підходу в жодному з цих трьох випадків. Вони, здається, залежать від ретроспективної - і тому марної - концепції ймовірності, яка не використовується в класичних моделях. Наприклад, твердження про те, що "подія або трапляється ..., або її немає" є тривіально правдивою, але не має відношення до ймовірностей.
whuber

0

Вибір тлумачення залежить від питання. Якщо ви хочете дізнатися шанси в ігровій ситуації, класична інтерпретація вирішить вашу проблему, але статистичні дані марні, оскільки справедливі кістки не мають пам’яті.

Якщо ви хочете передбачити майбутню подію на основі минулого досвіду, частолістська інтерпретація є правильною та достатньою.

Якщо ви не знаєте, чи сталася попередня подія, і ви хочете оцінити ймовірність того, що це сталося, ви повинні прийняти свої попередні переконання, тобто те, що ви вже знаєте про шанс, що ця подія відбудеться, і оновити свою віру, коли ви придбаєте нові дані.

Оскільки питання стосується певної міри переконань, і кожна людина може мати різне уявлення про пріорів, інтерпретація обов'язково є суб'єктивною, відомою також як байєсівська.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.