Запис у Вікіпедії про ймовірність видається неоднозначним


26

У мене є просте запитання щодо "умовної ймовірності" та "ймовірності". (Я вже опитував це питання тут, але безрезультатно.)

Він починається зі сторінки Вікіпедії, за якоюсь вірогідністю . Вони говорять так:

Імовірність набору значень параметрів, , з урахуванням результатів , дорівнює ймовірністю спостережуваних результатів цих даними тих значень параметрів, тобтоxθx

L(θx)=P(xθ)

Чудово! Отже, англійською мовою я читав це як: "Ймовірність параметрів, що дорівнюють теті, за даними X = x, (ліворуч), дорівнює ймовірності того, що дані X дорівнюють x, враховуючи, що параметри дорівнюють теті ". ( Сміливий мій наголос ).

Однак, не менше ніж на 3 рядки на цій же сторінці, запис у Вікіпедії продовжує говорити:

Нехай - випадкова величина з дискретним розподілом ймовірності залежно від параметра . Тоді функціяp θXpθ

L(θx)=pθ(x)=Pθ(X=x),

розглядається як функція , називається функцією вірогідності (з , враховуючи результат випадкової величини ). Іноді ймовірність значення з для значення параметра записується в вигляді ; часто пишуться як щоб підкреслити, що це відрізняється від що не є умовною ймовірністю , оскільки є параметром, а не випадковою змінною.θ x X x X θ P ( X = x θ ) P ( X = x ; θ ) L ( θ x ) θθθxXxXθP(X=xθ)P(X=x;θ)L(θx)θ

( Сміливий мій наголос ). Так, у першій цитаті нам буквально розповідається про умовну ймовірність , але одразу після цього нам кажуть, що це насправді НЕ умовна ймовірність, і насправді слід писати як ?P ( X = x ; θ )P(xθ)P(X=x;θ)

Отже, хто з них є? Чи справді вірогідність означає умовну ймовірність аля першої цитати? Або це означає просту ймовірність ала другої цитати?

Редагувати:

Спираючись на всі корисні та проникливі відповіді, які я отримав до цього часу, я підсумував своє запитання - і моє розуміння поки що:

  • В англійській мові ми говоримо , що: «Імовірність того, є функцією параметрів, враховуючи спостерігаються дані.» У математиці ми пишемо це як: .L(Θ=θX=x)
  • Ймовірність не є ймовірністю.
  • Ймовірність не є розподілом ймовірностей.
  • Ймовірність не є масою ймовірностей.
  • Імовірність того, проте, в англійській мові : «твір імовірнісних розподілів, (безперервний випадок), або продукт імовірнісних мас, (дискретний випадок), в якій , і параметріроваться від Θ = θ .» Тоді в математиці записуємо його як таке: L ( Θ = θ X = x ) = f ( X = x ; Θ = θ ) (безперервний випадок, де f - PDF), і як L ( Θ =X=xΘ=θL(Θ=θX=x)=f(X=x;Θ=θ)f
    (дискретний випадок, де P - маса ймовірності). Висновок тут полягає в тому, щов жодному разі тут взагаліне існує умовної ймовірності.L(Θ=θX=x)=P(X=x;Θ=θ)P
  • У теоремі Байєса маємо: . Розмовно нам кажуть, що "P(X=xΘ=θ)- це ймовірність", однакце не відповідає дійсності, оскількиΘможе бути фактичною випадковою величиною. Тому, що ми можемо правильно сказати, це те, що цей термінP(X=xΘ=θ)просто "схожий" на ймовірність. (?) [У цьому я не впевнений.]P(Θ=θX=x)=P(X=xΘ=θ) P(Θ=θ)P(X=x)P(X=xΘ=θ)ΘP(X=xΘ=θ)

Редагування II:

На основі відповіді @amoebas я намалював останній коментар. Я думаю, що це досить з'ясовує, і я думаю, що це очищує основну суперечку, яку я мав. (Коментарі до зображення).

введіть тут опис зображення

EDIT III:

Я також поширив коментарі @amoebas на випадок Баєса:

введіть тут опис зображення


Ви вже отримали дві приємні відповіді, але перевірте також stats.stackexchange.com/q/112451/35989
Tim

@Tim Відмінне посилання дякую! На жаль, мені все ще незрозуміло стосовно конкретних питань, які у мене є щодо вірогідності та умовної ймовірності (?), Яка, здається, викликає бажання. На це мені все ще незрозуміло. : - /
Creatron

2
"Враховуючи, що" не завжди означає умовну ймовірність. Іноді ця фраза є лише спробою вказати, які символи мають бути зафіксовані у розрахунку чи концептуально.
whuber

2
Деякі люди справді використовують таку типографічну умову з крапками з комою. Існує багато, багато конвенцій: підписки, надписи тощо. Вам часто доводиться з’ясовувати, що хтось означає з контексту або їх текстових описів того, що вони роблять.
whuber

4
Коли - випадкова величина (тобто значення, що вважається таким, що виникає з випадкової величини Θ ), у визначенні ймовірності нічого не змінюється. Це все-таки ймовірність. Логічно, це нічим не відрізняється від того, що сказати, що синій метелик все ще є метеликом. Технічно це викликає питання спільного розподілу Θ і x . Очевидно, що цей спільний розподіл повинен бути чітко визначений та користуватися певними "умовами регулярності", перш ніж ви зможете визначити ймовірність з умовною ймовірністю. θΘΘx
whuber

Відповіді:


18

Я думаю, що це багато в чому непотрібне розщеплення волосків.

Умовні ймовірності з ї дано у визначаються для двох випадкових величин X і Y приймають значення х і Y . Але ми можемо говорити про ймовірність Р ( х | thetas ; ) від х заданих θ , де θ не є випадковою величиною , а параметр.P(xy)P(X=xY=y)xyXYxyP(xθ)xθθ

Зауважте, що в обох випадках може використовуватися один і той же термін "заданий" та однакове позначення . Не потрібно вигадувати різні позначення. Більше того, те, що називається "параметром" і що називається "випадковою змінною", може залежати від вашої філософії, але математика не змінюється.P()

Перша цитата з Вікіпедії говорить, що за визначенням. Тут передбачається, що θ - параметр. Друга цитата говорить , що L ( & thetas ; | х ) є НЕ умовна ймовірність. Це означає, що це не умовна ймовірність θ, заданого x ; і насправді цього не може бути, тому що θ тут є параметром.L(θx)=P(xθ)θL(θx)θxθ

У контексті теореми Байєса іa,іbє випадковими змінними. Але ми все ще можемо назватиP(ba)"вірогідністю" (a), і тепер це також єдобросовісноюумовною ймовірністю (ofb). Ця термінологія є стандартною в баєсівській статистиці. Ніхто не каже, що це щось "схоже" на ймовірність; люди просто називають це ймовірністю.

P(ab)=P(ba)P(a)P(b),
abP(ba)ab

Примітка 1: В останньому абзаці , очевидно, є умовною ймовірністю b . Як імовірність L ( a b ) розглядається як функція a ; але це не розподіл ймовірностей (або умовна ймовірність) а ! Його інтеграл над a не обов'язково дорівнює 1 . (Тоді як його інтеграл над b ).P(ba)bL(ab)aaa1b

Примітка 2: Іноді ймовірність визначається до довільної постійної пропорційності, як наголошує @MichaelLew (оскільки більшість часу людей цікавлять співвідношення ймовірностей ). Це може бути корисно, але це не завжди робиться і не є суттєвим.


Дивіться також Яка різниця між "вірогідністю" та "ймовірністю"? і зокрема відповідь @ whuber там.

Я повністю згоден з відповіддю @ Тіма в цій темі (+1).


1
Отже, ймовірність, може насправді, дорівнює умовної ймовірності (відповідно до останнього абзацу), правильною? Це те, що я намагаюся квадратувати. Наприклад, в одній з перших відповідей ми маємо: " По-перше, вірогідність не може бути загалом рівною ймовірності даних, що задаються значенням параметра, оскільки ймовірність визначається лише до постійної пропорційності . Фішер був про це явним, коли він Перша формалізована ймовірність (Fisher, 1922). "Це те, що я намагаюся вирівняти. Чи вірогідність - чи може ймовірність - коли-небудь дорівнює умовної ймовірності?
Creatron

@Creatron Я додав дві примітки до своєї відповіді. Чи уточнюють вони це?
амеба каже, що повернеться до Моніки

1
Що стосується Примітки1: Оскільки - умовний розподіл ймовірностей, а оскільки L ( a | b ) не може бути розподілом ймовірностей, то мені здається, що найбільш «правильним» способом ми можемо написати рівняння для ймовірність у цьому контексті: L ( a | b ) P ( b | a ) , а не як L ( a | b ) = P ( b | a )P(b|a) L(a|b) L(a|b)P(b|a)L(a|b)=P(b|a). (Я знаю, що в оптимізації це не має ніякого значення, але я намагаюся визначити правильність того, що тут є ймовірність). Чи правильно моє розуміння? Дякуємо за ваше терпіння.
Creatron

1
@Creatron Я думаю, що тут ви плутаєте кілька різних питань. Я припускаю, що ви говорите про встановлення теореми Байєса (про що йдеться в моїй примітці 1), де і і b - випадкові події. Гаразд, тому P ( b | a ) - умовний розподіл ймовірностей b, заданий a . Але L ( a | b ) вважається функцією a , а не b ! І це не розподіл ймовірності aabP(b|a)baL(a|b)abaтому що це не дорівнює одному. Це не має нічого спільного з питанням або пропорційністю (що є моєю Приміткою 2). Я думаю, ми можемо написати . L(a|b)=P(b|a)
Амеба каже, що повернешся Моніку

1
Амеба, дякую !! Ви зробили важливу роль у розв’язуванні цих понять для мене, велике спасибі !! :) Я просто "поширив" діаграму на випадок Байєса і буду вдячний за ваш відгук, щоб переконатися, що я це правильно зрозумів. Я також прийняв вашу відповідь. Ще раз, масово милостивий!
Creatron

10

Ви вже отримали дві приємні відповіді, але оскільки це все ще здається незрозумілим, ви дозволите мені надати одну. Ймовірність визначається як

L(θ|X)=P(X|θ)=ifθ(xi)

тому у нас є ймовірність деякого значення параметра & даного дані X . Він дорівнює добутку маси ймовірності (дискретний випадок) або густини (безперервний випадок) функцій f з X, параметризованих на θ . Ймовірність - це функція параметра, заданого даними. Зауважте, що θ - параметр, який ми оптимізуємо, а не випадкова величина, тому він не має присвоєних йому ймовірностей. Ось чому Вікіпедія стверджує, що використання позначень умовної ймовірності може бути неоднозначним, оскільки ми не обумовлюємо жодної випадкової величини. З іншого боку, в байєсівській установці θ єθ XfXθθθ випадкова величина і має розподіл, тому ми можемо працювати з нею, як і з будь-якою іншою випадковою змінною, і ми можемо використовувати теорему Байєса для обчислення задніх ймовірностей. Байєсівська ймовірність все ще є ймовірністю, оскільки вона говорить нам про ймовірність даних, заданих параметром, різниця полягає лише в тому, що параметр вважається випадковою змінною.

Якщо ви знаєте програмування, ви можете думати про функцію ймовірності як про перевантажену функцію в програмуванні. Деякі мови програмування дозволяють мати функцію, яка працює по-різному, коли викликається, використовуючи різні типи параметрів. Якщо ви думаєте про таку ймовірність, то за замовчуванням, якщо приймає за аргумент якесь значення параметра і повертає ймовірність даних, заданих цим параметром. З іншого боку, ви можете використовувати таку функцію в налаштуваннях Байєса, де параметр є випадковою змінною, це призводить в основному до одного виводу, але це може бути зрозуміло як умовна ймовірність, оскільки ми обумовлюємо випадкову змінну. В обох випадках функція працює однаково, просто ви її використовуєте та розумієте її трохи інакше.

// likelihood "as" overloaded function
Default Likelihood(Numeric theta, Data X) {
    return f(X, theta); // returns likelihood, not probability
}

Bayesian Likelihood(RandomVariable theta, Data X) {
    return f(X, theta); // since theta is r.v., the output can be
                        // understood as conditional probability
}

Більше того, ви швидше не знайдете баєсів, які пишуть теорему Байєса як

P(θ|X)L(θ|X)P(θ)

... це було б дуже заплутано . По-перше, у вас буде з обох сторін рівняння, і це не мало б великого сенсу. По-друге, ми маємо задню ймовірність знати про ймовірність θ даних даних (тобто, про те, що ви хотіли б знати у ймовірнісних рамках, але ви цього не робите, коли θ не є випадковою змінною). По-третє, оскільки θ - випадкова величина, ми маємо і записуємо її як умовну ймовірність. The Lθ|XθθθL-notation is generally reserved for likelihoodist setting. The name likelihood is used by convention in both approaches to denote similar thing: how probability of observing such data changes given your model and the parameter.


Thank you Tim, this has been very helpful in my understanding. I have re-consolidated my question (see under "Edit") with this new knowledge. I believe everything I have now written there is true. The only holdout is the last point in the list on Bayes rule. If you could take a look I would appreciate that a lot. Thanks again, and have an upvote!
Creatron

1
@Creatron I added a sentence commenting your last bullet to my answer, hope it is now clear -- if not please say so.
Tim

(1/2) Your edits on the overloaded operator helps me a lot. In this case, it seems to me that we can say this: 1) Under the 'mathematically pure' (historical case in the sense of what Fisher probably meant), case, where θ is not a random variable, and instead is a parameter of a PDF, (or a function of a parameter?), then the likelihood is equal to the probability of P(X=x;θ). The likelihood function is NOT a probability distribution, sure, but it is EQUAL TO the probability of P(X=x;θ). Is this correct?
Creatron

(2/2) In the second case however, (2), when the context is a Bayesian setting, then in this case our parameters are a r.v, and so in this case the likelihood IS in fact, a conditional probability distribution, of P(b|a), written however, as L(a|b). So in the first 'default' case, the likelihood was definitely NOT a probability distribution, (but was equal to a probability value), however in the second case, the likelihood IS in fact a probability distribution, and that probability distribution is a conditional probability, written as P(b|a). Is this correct?
Creatron

2
Thank you Tim, even though I accepted @amoeba 's answer, your post truly helped me understand this varied and deep concept, esp your analogy to overloaded functions. Thank you again!
Creatron

7

Існує кілька аспектів загальних описів вірогідності, які є неточними або опускають деталі таким чином, що породжує розгубленість. Запис у Вікіпедії - хороший приклад.

По-перше, вірогідність не може бути загалом дорівнює ймовірності даних, заданих значенням параметра, оскільки ймовірність визначається лише до постійної пропорційності. Фішер був чітко про це, коли вперше формалізував вірогідність (Fisher, 1922). Причиною цього, здається, є той факт, що немає обмеження на інтеграл (або суму) функції ймовірності та ймовірність спостереження за данимих в межах статистичної моделі, на яку-небудь значення параметрів (ив) сильно впливає точність значень даних та деталізація специфікації значень параметрів.

По-друге, корисніше подумати над функцією ймовірності, ніж ймовірність окремих. Функція ймовірності - це функція значення (s) параметрів моделі, як це очевидно з графіка функції ймовірності. Такий графік також дозволяє легко побачити, що ймовірність дозволяє ранжувати різні значення параметрів (ив) відповідно до того, наскільки добре модель прогнозує дані, встановлені на ці значення параметрів. Дослідження функцій вірогідності робить, на мою думку, ролі даних та значень параметрів набагато більш зрозумілими, ніж це може сприйняття різних формул, наведених у вихідному запитанні.

Використання відношення пар імовірностей у межах функції ймовірності як відносного ступеня підтримки, пропонованого спостережуваними даними для значень параметрів (у моделі), оточує проблему невідомих констант пропорційності, оскільки ці константи скасовуються у співвідношенні. Важливо зазначити, що константи не обов'язково скасовуються у співвідношенні ймовірностей, що випливають з окремих функцій вірогідності (тобто з різних статистичних моделей).

Нарешті, корисно бути чітким щодо ролі статистичної моделі, оскільки ймовірність визначається статистичною моделлю, а також даними. Якщо ви виберете іншу модель, ви отримаєте іншу функцію вірогідності, і ви можете отримати іншу невідому константу пропорційності.

Таким чином, щоб відповісти на початкове запитання, ймовірність не є ймовірністю. Вони не підкоряються аксіомам ймовірності Колмогорова, і вони відіграють різну роль у статистичній підтримці висновку від ролей, які відіграють різні види ймовірності.

  1. Фішер (1922) Про математичні основи статистики http://rsta.royalsocietypublishing.org/content/222/594-604/309

1
The first line in your post summarizes my frustration with this topic. At any rate, some questions based on your post, sir: 1) The bayesian formula is often written as P(a|b)=P(b|a)P(a)P(b), where (we are told) that P(b|a) is a 'likelihood', and that P(a) is a 'prior'. If likelihood is not a probability, then is this statement false? 2) My motivation for the question is in the context of deriving a maximum likelihood estimator, which inevitably links a likelihood to a (seemingly) concrete (conditional) probability. Given those two examples, how then to reconcile those? Thanks.
Creatron

@Creatron 1. No, the statement is not necessarily wrong. The likelihood function is how the evidence enters the calculation, and combining it with a probability distribution yields a probability distribution. In that context the unknown proportionality constant is not a problem because after the product of the likelihood function and prior probability distribution is arbitrarily scaled so that it has the correct unity integral (or sum).
Michael Lew

2. In the context of finding a maximum likelihood estimate it makes no difference whether you use a conditional probability or a likelihood, as they will be proportional over the entire range of parameter values.
Michael Lew

1
Can we then say that while L(θ|x)=P(x|θ) is technically wrong, L(θ|x)P(x|θ) is technically and formally correct? Is that all there is to it?
Creatron

Thank you Micheal Lew, your post has really helped in my understanding of this problem, much appreciated.
Creatron

7

Wikipedia should have said that L(θ) is not a conditional probability of θ being in some specified set, nor a probability density of θ. Indeed, if there are infinitely many values of θ in the parameter space, you can have

θL(θ)=,
for example by having L(θ)=1 regardless of the value of θ, and if there is some standard measure dθ on the parameter space Θ, then in the same way one can have
ΘL(θ)dθ=.
An essential point that the article should emphasize is that L is the function
θP(xθ) and NOT xP(xθ).

2
+1 і дякую за редагування моєї відповіді; Я забув, що \midіснує.
Амеба каже, що повернеться до Моніки

@amoeba : Glad to help.
Michael Hardy

3

"Я читаю це як:" Ймовірність параметрів, що дорівнюють теті, за даними X = x, (ліва частина), дорівнює ймовірності того, що дані X дорівнюють x, враховуючи, що параметри рівні theta ". (Жирний мій наголос)."

Ймовірність набору спостережень за даним параметром є тета. Це, мабуть, заплутано, бо вони пишутьП(х|θ) але з іншого боку L(θ|х).

Пояснення (дещо об’єктивно) передбачає це θне є випадковою змінною. Наприклад, це може бути випадкова величина з деяким попереднім розподілом у байєсівській обстановці. Суть у тому, що ми гадаємоθ=θ, a concrete value and then make statements about the likelihood of our observations. This is because there is only one true value of θ in whatever system we're interested in.


Ok, so I then conclude based on this that i) The first image on the wikipedia is wrong, because (to my knowledge at least), P(a|b) is always read as a conditional probability, and what they SEEM to want to say, is that it's not - or ever - "probability of the data GIVEN this theta", it's rather, "probability of the data, PARAMETERIZED by this theta". Is this correct? Thanks. (To summarize, it seems that L(θ|x)=P(X=x;θ).
Creatron

This however is problematic, because in a Bayesian formulation, P(a|b)=P(b|a) P(a)P(b), the P(b|a) we are told is in fact the likelihood, (and is in fact a conditional probability). However this contradicts what we just said, and also contradicts what the wiki says in image 2.
Крестрон

L(θ|x):=P(x|θ). The θ is to the left of x in L to emphasize that we think of L as a function of θ, the parameter we wish to optimize. So there's no contradiction.
Алекс Р.

Is the right-hand-side of L(θ|x) := P(x|θ) a conditional probability?
Крестрон

This makes more sense to me now. Thanks for your initial help, @Alex.
Creatron
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.