Яка різниця між "вірогідністю" та "ймовірністю"?


474

Сторінка вікіпедії стверджує, що вірогідність та ймовірність є різними поняттями.

Нетехнологічно кажучи, "ймовірність" зазвичай є синонімом "ймовірності", але при статистичному використанні чітке розмежування в перспективі: число, яке є ймовірністю деяких спостережуваних результатів, що дається набором значень параметрів, вважається як вірогідність набору значень параметрів з урахуванням спостережуваних результатів.

Чи може хтось дати детальніше опис того, що це означає? Крім того, було б непогано кілька прикладів того, як "вірогідність" та "ймовірність" не погоджуються.


9
Чудове запитання. Я б додав "шанси" та "шанс" і там :)
Ніл МакГуйган

5
Я думаю, вам слід поглянути на це питання stats.stackexchange.com/questions/665/…, оскільки ймовірність є для статистичних цілей, а ймовірність - для ймовірності.
Робін Жирард

3
Нічого собі, це справді хороші відповіді. Тож велика подяка за це! Незабаром я виберу одну, що мені особливо подобається, як "прийняту" відповідь (хоча є кілька, які я вважаю однаково заслуженими).
Дуглас С. Стоунс

1
Також зауважте, що "коефіцієнт ймовірності" насправді є "коефіцієнтом ймовірності", оскільки це функція спостережень.
JohnRos

Відповіді:


320

Відповідь залежить від того, чи маєте ви справу з дискретними або безперервними випадковими змінними. Отже, я відповідна поділ відповіді. Я вважаю, що вам потрібні деякі технічні деталі, а не обов'язково пояснення простою англійською мовою.

Дискретні випадкові змінні

Припустимо, у вас стохастичний процес, який приймає дискретні значення (наприклад, результати підкидання монети в 10 разів, кількість клієнтів, які приходять в магазин за 10 хвилин тощо). У таких випадках ми можемо обчислити ймовірність спостереження за певним набором результатів, зробивши відповідні припущення про базовий стохастичний процес (наприклад, ймовірність посадки головки монети і про те, що кидки монети не залежать).p

Позначте спостережувані результати через та набір параметрів, які описують стохастичний процес як . Таким чином, коли ми говоримо про ймовірність, ми хочемо обчислити . Іншими словами, з огляду на конкретні значення , є ймовірність того, що ми будемо спостерігати результати , представлені .OθP(O|θ)θP(O|θ)O

Однак, коли ми моделюємо стохастичний процес у реальному житті, ми часто не знаємо . Ми просто спостерігаємо , а потім мета полягає в тому, щоб прийти до оцінки , яка була б правдоподібною вибір з урахуванням спостережуваних результатів . Ми знаємо, що з урахуванням значення ймовірність спостереження за дорівнює . Таким чином, «природний» процес оцінки є вибір , що значення , що б максимізувати ймовірність того, що ми на самому ділі спостерігати . Іншими словами, ми знаходимо значення параметрів які максимізують наступну функцію:θOθOθOP(O|θ)θOθ

L(θ|O)=P(O|θ)

L(θ|O) називається функцією ймовірності. Зауважте, що за визначенням функція ймовірності обумовлена ​​спостережуваним і що це функція невідомих параметрів .Oθ

Безперервні випадкові змінні

У безперервному випадку ситуація схожа з однією важливою відмінністю. Ми більше не можемо говорити про ймовірність того, що ми спостерігали задану оскільки в безперервному випадку . Не вникаючи в технікуми, основна ідея така:OθP(O|θ)=0

Позначимо функцію щільності ймовірності (pdf), пов'язану з результатами як: . Таким чином, у безперервному випадку ми оцінюємо даними спостережуваних результатів шляхом максимізації наступної функції:Of(O|θ)θO

L(θ|O)=f(O|θ)

У цій ситуації, ми не можемо стверджувати , що технічно ми знаходимо значення параметра , яке максимізує ймовірність того, що ми спостерігаємо , як ми максимально PDF , пов'язаний з спостерігаються наслідками .OO


35
Відмінність між дискретними та безперервними змінними зникає з точки зору теорії мір.
whuber

24
@whuber так, але відповідь, що використовує теорію мір, не є доступною для всіх.

16
@Srikant: Погоджено. Зауваження було на користь ОП, який є математиком (але, можливо, не статистиком), щоб уникнути введення в оману думки, що є щось принципове в цій відмінності.
whuber

6
Ви можете інтерпретувати неперервну щільність так само, як дискретний випадок, якщо замінити , в тому сенсі, що якщо ми запитаємо (тобто ймовірність того, що дані містяться в нескінченно малій області про ), а відповідь - ( дає зрозуміти, що ми обчислюємо площу нескінченномалого тонкого "бункера" гістограми ). d O P r ( O ( O , O + d O ) | θ ) O O f ( O | θ ) d O d O OdOPr(O(O,O+dO)|θ)OOf(O|θ)dOdO
ймовірністьлогічний

9
Я запізнююся на партію понад 5 років, але я думаю, що дуже важливим подальшим наслідком цієї відповіді буде stats.stackexchange.com/questions/31238/…, який наголошує на тому, що функція ймовірності є не pdf стосовно . ) - це справді pdf даних із заданим значенням параметра, але оскільки є функцією лише (дані зберігаються як константа), не має значення, що є pdf дані дані . θ L ( θ L θ L ( θ ) θL(θ)θL(θLθL(θ)θ
Шобхіт

135

Це такий тип запитань, на який збираються відповісти майже всі, і я би очікував, що всі відповіді будуть хорошими. Але ти математик, Дуглас, тому дозвольте запропонувати математичну відповідь.

Статистична модель повинна з'єднувати дві різні концептуальні сутності: дані , які є елементами певного набору (наприклад, векторного простору), та можливу кількісну модель поведінки даних. Моделі зазвичай представлені точками на кінцевому розмірному колекторі, колекторі з межею або простором функції (останнє називається проблемою "непараметрична").xθθ

Дані підключаються до можливих моделей за допомогою функції . Для будь-якого даного , призначений для ймовірності (або щільність ймовірності) . Для будь-якого даного , з іншого боку, може розглядатися як функція і, як правило, передбачається, що він має певні приємні властивості, наприклад, що є безперервно другими диференційованими. Намір переглянути таким чином і посилатися на ці припущення оголошено, називаючи "вірогідністю".xθΛ(x,θ)θΛ(x,θ)xxΛ(x,θ)θΛΛ

Це зовсім схоже на відмінність змінних та параметрів у диференційному рівнянні: іноді ми хочемо вивчити рішення (тобто ми орієнтуємось на змінні як аргумент), а іноді ми хочемо вивчити, як рішення змінюється залежно від параметрів. Основна відмінність полягає в тому, що в статистиці нам рідко потрібно вивчити одночасну варіацію обох аргументів; не існує жодного статистичного об'єкта, який би природно відповідав зміні як даних і параметрів моделі . Ось чому ви чуєте більше про цю дихотомію, ніж ви хочете в аналогічних математичних установках.xθ


6
+1, яка класна відповідь. Аналогія з диференціальними рівняннями здається дуже доречною.
mpiktas

3
Будучи економістом, хоча ця відповідь не стосується настільки тісно, ​​як попередня, до понять, яких я вивчив, вона була найбільш інформативною в інтуїтивному розумінні. Дуже дякую.
Робсон

1
Насправді це твердження насправді не відповідає дійсності "немає статистичного об'єкта, який природно відповідає зміні як даних x, так і параметрів моделі θ.". Є, це називається "згладжування, фільтрування та прогнозування", у лінійних моделях - його фільтр Кальмана, у нелінійних моделях - вони мають повний нелінійний фільтр, en.wikipedia.org/wiki/Kushner_equation тощо
ворота

1
Так, чудова відповідь! Як це звучить кульгаво, вибравши замість стандартної позначення , мені стало легше бачити, що ми починаючи із спільної ймовірності, яка може бути визначена як вірогідність, чи умовна ймовірність. Плюс допоміг коментар "певних приємних властивостей". Дякую! P ( x , θ )Λ(x,θ)P(x,θ)
Майк Вільямсон

2
@whuber Так, я знаю, - це не звичайне позначення. Саме тому це допомогло! Я перестав думати, що він повинен мати певний сенс і замість цього просто слідував логіці. ;-pΛ
Майк Вільямсон

110

Я спробую мінімізувати математику в своєму поясненні, оскільки вже є хороші математичні пояснення.

Як зазначає Робін Гіранд, різниця між ймовірністю та ймовірністю тісно пов'язана з різницею між ймовірністю та статистикою . У певному сенсі ймовірність та статистика стосуються себе проблем, протилежних або зворотних одна одній.

Розгляньте кидання монети. (Моя відповідь буде схожа на Приклад 1 у Вікіпедії .) Якщо ми знаємо, монета є справедливою ( ), типовим питанням ймовірності є: Яка ймовірність отримати дві голови підряд. Відповідь .P ( H H ) = P ( H ) × P ( H ) = 0,5 × 0,5 = 0,25p=0.5P(HH)=P(H)×P(H)=0.5×0.5=0.25

Типовим статистичним питанням є: Чи справедлива монета? Щоб відповісти на це, нам потрібно запитати: Наскільки наш зразок підтримує нашу гіпотезу, що ?P(H)=P(T)=0.5

Перший момент, який слід зазначити, - напрямок питання змінився. Імовірно, ми починаємо з передбачуваного параметра ( ) і оцінюємо ймовірність даного зразка (дві голови підряд). У статистиці ми починаємо з спостереження (дві голови підряд) і робимо ВПРАВЛІННЯ про наш параметр ( ).p = P ( H ) = 1 - P ( T ) = 1 - qP(head)p=P(H)=1P(T)=1q

Приклад 1 у Вікіпедії показує нам, що максимальна оцінка ймовірності через 2 голови підряд - . Але дані жодним чином не виключають істинного значення параметра (не будемо зараз стосуватися деталей). Насправді лише дуже малі значення і, особливо, можуть бути розумно усунені після (два кидки монети). Після того, як третій кидок прийде в кінці, ми тепер можемо виключити ймовірність того, що (тобто це не двоглава монета), але більшість значень між ними можуть бути розумно підтверджені данимиp M L E = 1 p ( H ) = 0,5 p ( H ) p ( H ) = 0 n = 2 P ( H ) = 1,0 p ( H )P(H)pMLE=1p(H)=0.5p(H)p(H)=0n=2P(H)=1.0. (Точний двочленний 95% довірчий інтервал для становить 0,094 до 0,992.p(H)

Після 100 викидання монет і (скажімо, 70 голов) ми маємо обґрунтовану підставу для підозри, що монета насправді не є справедливою. Точний 95% ІС наp ( H ) = 0,5p(H) зараз становить 0,600 до 0,787, а ймовірність спостерігати результат такий екстремальний, як 70 і більше голів (або хвостів) від 100 кидок, заданих становить 0,0000785.p(H)=0.5

Хоча я чітко не використовував обчислення ймовірності, цей приклад фіксує поняття ймовірності: ймовірність є мірою того, наскільки вибірка забезпечує підтримку певних значень параметра в параметричній моделі .


3
Чудова відповідь! Особливо корисні три останні абзаци. Як би ви розширили це для опису безперервного випадку?
Деметрис

8
Для мене найкраща відповідь. Я зовсім не проти математики, але для мене математика - це інструмент , яким керує те, що я хочу (я не насолоджуюся математикою заради себе, а заради того, що вона допомагає мені робити). Тільки з цією відповіддю я знаю останнє.
Мерре

73

Я дам вам точку зору з точки зору теорії ймовірності, що виникла з Фішером - і є основою для статистичного визначення у цитованій статті Вікіпедії.

Припустимо , у вас є випадкове випадкових величин , які виникають з параметрезованих розподілу F ( X ; θ ) , де θ параметр , що характеризує F . Тоді ймовірність X = x складе: P ( X = x ) = F ( x ; θ ) , з відомим θ . XF(X;θ)θFX=xP(X=x)=F(x;θ)θ

Частіше у вас є дані а θ - невідомо. Враховуючи прийняту модель , вірогідність визначається як вірогідність спостережуваних даних як функції : . Зауважте, що відомий, але невідомо; насправді мотивація визначення ймовірності полягає у визначенні параметра розподілу.Xθθ L ( θ ) = P ( θ ; X = x ) X θFθL(θ)=P(θ;X=x)Xθ

Хоча здається, що ми просто переписали функцію ймовірності, ключовим наслідком цього є те, що функція ймовірності не підкоряється законам ймовірності (наприклад, вона не пов'язана з інтервалом [0, 1]). Однак функція ймовірності пропорційна ймовірності спостережуваних даних.

Ця концепція правдоподібності насправді призводить до різної школи думки, "ймовірності" (відмінна від частістської та байєсівської), і ви можете шукати в Google, щоб шукати всі різні історичні дискусії. Наріжним каменем є Принцип ймовірності, який по суті говорить про те, що ми можемо робити висновок безпосередньо з функції вірогідності (ні байєси, ні частотанти не приймають цього, оскільки це не є імовірним висновком). У наші дні багато того, що в школах викладають як "частістські", насправді є об'єднанням частолістського та вірогідного мислення.

Для глибшого розуміння, приємний початок та історична довідка - це ймовірність Едвардса . Для сучасної думки я рекомендую чудову монографію Річарда Ройала « Статистичні докази: парадигма ймовірності» .


3
Цікава відповідь, я насправді вважав, що "школа імовірностей" - це в основному "відвідувачі, які не проектують школу для зразків", а "школа дизайну" - решта відвідувачів. Мені фактично важко сказати, в якій «школі» я, оскільки маю трохи знань з кожної школи. Школа "Ймовірність як розширена логіка" є моїм улюбленим (да), але я не маю достатнього практичного досвіду в застосуванні її до реальних проблем, щоб бути догматичним щодо цього.
ймовірністьлогічний

5
+1 для "функція ймовірності не підкоряється законам ймовірності (наприклад, вона не пов'язана з інтервалом [0, 1]). Однак функція ймовірності пропорційна ймовірності спостережуваних даних".
Морж Кіт

10
"функція ймовірності не підпорядковується законам ймовірності" могла б використовувати додаткові роз'яснення, особливо оскільки вона записується як θ: L (θ) = P (θ; X = x), тобто прирівнюється до ймовірності!
redcalx

Дякую за вашу відповідь. Не могли б ви звернутися до коментаря, який зробив @locster?
Vivek Subramanian

2
Для мене, як не математика, це читає як релігійну математику, з різними переконаннями, що призводять до різного значення для шансів на події. Чи можете ви сформулювати це, щоб було легше зрозуміти, що таке різні переконання і чому вони мають сенс, замість того, щоб одна була просто неправильною, а інша школа / віра була правильною? (припущення, що існує один правильний спосіб розрахунку шансів на події)
Зельфір Кальтшталь

55

З огляду на всі прекрасні технічні відповіді, наведені вище, дозвольте повернути його до мови: ймовірність кількісно оцінює очікування (результату), ймовірність кількісно оцінює довіру (у моделі).

Припустимо, хтось кидає нам виклик "вигідній азартній грі". Тоді ймовірності слугуватимуть нам для обчислення таких речей, як очікуваний профіль ваших прибутків і втрат (середнє значення, режим, медіана, дисперсія, співвідношення інформації, величина ризику, руйнування гравців тощо). На противагу цьому, ймовірність послужить нам для кількісної оцінки того, чи довіряємо ми цим імовірностям насамперед; чи ми 'пахнемо щуром'.


Між іншим - оскільки хтось вище згадував релігію статистики - я вважаю, що коефіцієнт ймовірності є невід’ємною частиною байєсівського світу, а також частофілістського: у байєсському світі формула Байєса просто поєднує попередню ймовірність виготовлення задніх.


Ця відповідь підсумовує це для мене. Мені довелося продумати, що це означає, коли я прочитав, що ймовірність не є ймовірністю, але мені стався такий випадок. Яка ймовірність справедливості монети, враховуючи, що ми бачимо чотири голови підряд? Тут ми не можемо нічого сказати про ймовірність, але слово "довіра" здається влучним. Чи відчуваємо ми, що можемо довіряти монеті?
Ганчірка

Спочатку це могло бути історично цільова мета вірогідності, але в наш час ймовірність - це кожен байесівський розрахунок, і відомо, що ймовірності можуть об'єднати переконання та правдоподібність, через що була створена теорія Демпстера-Шафера, щоб розмежувати обидві інтерпретації.
габоровий

50

Припустимо, у вас є монета з ймовірністю до наземних голів та до посадкових хвостів. Нехай вказує на голови, а вказують на хвости. Визначте наступним чиномp(1p)x=1x=0f

f(x,p)=px(1p)1x

f(x,2/3) - ймовірність x, заданої , - ймовірність заданої . В основному ймовірність проти ймовірності говорить вам, який параметр щільності вважається змінноюp=2/3f(1,p)px=1


Приємне доповнення до теоретичних визначень, використаних вище!
Френк Меуленаар

Я бачу, що дає ймовірність мати голів у випробуваннях. Ваш виглядає як -й корінь цього: . Що це означає? n k p x ( 1 - p ) 1 - x k x = n / kCknpn(1p)knnkpx(1p)1xkx=n/k
Маленький інопланетянин

40

Якщо у мене є справедлива монета (значення параметра), то ймовірність того, що вона підійде головою, становить 0,5. Якщо я переверніть монету в 100 разів, і вона підійде до голови 52 рази, то вона має велику ймовірність бути справедливою (числове значення ймовірності потенційно може приймати декілька форм).


3
Ця і відповідь циганина повинна бути зверху! Інтуїція та ясність вище сухий математичної строгості, не кажучи вже про щось більш зневажливе.
Неманя Радойкович

24

P(x|θ)

  • xθθP(x|θ)xθP(x;θ)Pθ(x)θP(x|θ)умовнаP(xθ)/P(θ)
  • θxθ^θP(x|θ)P(x|θ^)θxL(θ^|x)P(x|θ)xθθ

Часто цей вираз все ще є функцією обох його аргументів, тому це скоріше питання акценту.


У другому випадку я думав, що люди зазвичай пишуть P (theta | x).
yuqian

Спочатку інтуїтивно я вже думав, що вони обидва слова однакові з різницею в перспективі чи природній мовній формі, тому я відчуваю, що "Що? Я весь час був прав ?!" Але якщо це так, то чому їх вирізняти так важливо? Англійська мова не є моєю рідною мовою, я виріс лише одним словом, здавалося б, обидва терміни (чи я просто ніколи не стикався з проблемою, де мені потрібно було розрізнити терміни?) І ніколи не знав, що є різниця. Лише тепер, коли я знаю два англійські терміни, я починаю сумніватися в розумінні цих речей.
Зельфір Кальтшталь

3
Ваша відповідь здається дуже зручною і її легко зрозуміти. Цікаво, чому у нього так мало відгуків.
Джуліан

4
θθθθ

Я думаю, що це найкраща відповідь серед усіх
Аарон

4

θ ).

P(X|θ)θP(X|θ)dθθθ


1
Як вказує відповідь @Lenar Hoyt, якщо тета є випадковою змінною (якою вона може бути), то ймовірність - це ймовірність. Тож справжня відповідь здається такою, що ймовірність може бути ймовірністю, але іноді це не так.
Майк Мудрий

@MikeWise, я думаю, тета завжди може розглядатися як "випадкова" змінна, але ймовірно, що вона просто не така "випадкова" ...
Відповідь777

4

ви знаєте пілота телевізійного серіалу "num3ers", в якому ФБР намагається знайти домашню базу серійного злочинця, який, здається, обирає своїх жертв випадково?

p(x|θ)xθxθpθ(x)=p(x|θ)xθ

xθ .

θθp(x|θ)xlx(θ)=p(x|θ)θxxθ^ на кекс.

lx(θ)θpθ(x)xp(x|θ)xθ

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.