Імовірність проти умовного розподілу для байєсівського аналізу


13

Ми можемо записати теорему Байєса як

p(θ|x)=f(X|θ)p(θ)θf(X|θ)p(θ)dθ

де - задній, - умовний розподіл, а - попередній.p(θ|x)f(X|θ)p(θ)

або

p(θ|x)=L(θ|x)p(θ)θL(θ|x)p(θ)dθ

де - задній, - функція ймовірності, а - пріоритетна.p(θ|x)L(θ|x)p(θ)

Моє запитання

  1. Чому баєсівський аналіз робиться за допомогою функції ймовірності, а не умовного розподілу?
  2. Чи можете ви сказати словами, яка різниця між вірогідністю та умовним розподілом? Я знаю, що ймовірність - це не розподіл ймовірностей, а .L(θ|x)f(X|θ)

1
Різниці немає! Ймовірність умовного розподілу , ну пропорційна, що є всім важливим. f(X|θ)
kjetil b halvorsen

1
Попередній параметр має щільність . якщо реалізація має значення , а являє собою спостережуване значення випадкової величини , то значення функції правдоподібності є саме , значення умовної щільності з . Різниця полягає в тому, що для всіх реалізацій . Однак як функціяp Θ ( θ ) Θ θ x X L ( θ x ) f ( x θ ) f X Θ ( x Θ = θ ) X - f X ΘΘpΘ(θ)ΘθxXL(θx) f(xθ)fXΘ(xΘ=θ)XΘ θ x L ( θ x
fXΘ(xΘ=θ)dx=1
Θθ(І фіксованою ), є НЕ щільність:x L ( θ x ) d θ 1L(θx)
L(θx)dθ1
Діліп Sarwate

Відповіді:


11

Припустимо, у вас є випадкові величини (значення яких будуть спостерігатися у вашому експерименті), які умовно є незалежними, враховуючи, що , з умовною щільністю , для . Це ваша (постульована) статистична (умовна) модель, і умовна щільність виражає для кожного можливого значення (випадкового) параметра , вашу невизначеність щодо значень , перш ніж мати доступ до будь-якого реальні дані. За допомогою умовних густин можна, наприклад, обчислити умовні ймовірності на зразок Θ = θ f X iΘ (X1,,XnΘ=θfXiΘ(θ)i=1,,nθΘXi

P{X1B1,,XnBnΘ=θ}=B1××Bni=1nfXiΘ(xiθ)dx1dxn,
для кожного .θ

Після того, як ви отримаєте доступ до фактичної вибірки значень (реалізацій) даних , що спостерігалися в одному циклі вашого експерименту, ситуація змінюється: більше немає визначеності щодо спостережуваних . Припустимо, що випадковий приймає значення в деякому просторі параметрів . Тепер необхідно визначити, для тих відомих (фіксованих) значень є функція по Зауважте, що , відома як "функція ймовірності", є функцією(x1,,xn)XiX1,,XnΘΠ(x1,,xn)

Lx1,,xn:ΠR
Lx1,,xn(θ)=i=1nfXiΘ(xiθ).
Lx1,,xnθ . У цій ситуації "після того, як у вас є дані", ймовірність містить для конкретної умовної моделі, яку ми розглядаємо, всю інформацію про параметр міститься в цьому конкретному зразку . Насправді трапляється, що є достатньою статистикою для .Lx1,,xnΘ(x1,,xn)Lx1,,xnΘ

Відповідаючи на ваше запитання, щоб зрозуміти відмінності між поняттями умовної щільності та ймовірності, пам’ятайте про їх математичні визначення (які чітко різні: вони різні математичні об’єкти, з різними властивостями), а також пам’ятайте, що умовна щільність є «попередньою -пробний "об'єкт / концепція, тоді як ймовірність є" після-зразком ". Я сподіваюсь, що все це також допоможе вам відповісти, чому байєсівський висновок (використовуючи спосіб викладати його, який я не вважаю ідеальним) робиться "за допомогою функції ймовірності, а не умовного розподілу": мета байєсівського висновку полягає в для обчислення заднього розподілу і для цього ми обумовлюємо спостережувані (відомі) дані.


Я думаю, що Дзен правильно, коли каже, що ймовірність та умовна ймовірність різні. У ймовірності функція θ не є випадковою величиною, тому вона відрізняється від умовної ймовірності.
Мартін

2

Пропорційність використовується для спрощення аналізу

Байєсівський аналіз, як правило, проводиться за допомогою ще більш простого твердження теореми Байєса, де ми працюємо лише з точки зору пропорційності щодо параметра, що цікавить. Для стандартної моделі IID з щільністю вибірки ми можемо виразити це так:f(X|θ)

p(θ|x)Lx(θ)p(θ)Lx(θ)i=1nf(xi|θ).

Це твердження байєсівського оновлення працює з точки зору пропорційності відносно параметра . Він використовує два спрощення пропорційності: одне у використанні функції ймовірності (пропорційне щільності вибірки) і одне в задньому (пропорційне добутку ймовірності та попереднього). Оскільки задній є функцією густини (у безперервному випадку), то правило нормування встановлює мультиплікативну константу, необхідну для отримання дійсної щільності (тобто для того, щоб вона інтегрувалася в одну).θ

Цей метод використання пропорційності має перевагу в тому, що дозволяє ігнорувати будь-які мультиплікативні елементи функцій, які не залежать від параметра . Це, як правило, спрощує проблему, дозволяючи нам зрушити непотрібні частини математики та отримати більш прості заяви про механізм оновлення. Це не є математичною вимогою (оскільки правило Байєса працює і в непропорційній формі), але це робить простішими для наших крихітних мізків тварини.θ

Приклад прикладу: Розглянемо модель IID із спостережуваними даними . Для полегшення нашого аналізу ми визначаємо статистику та , які є першими двома зразковими моментами. Для цієї моделі у нас є щільність вибірки:X1,...,XnIID N(θ,1)x¯=1ni=1nxix¯¯=1ni=1nxi2

f(x|θ)=i=1nf(xi|θ)=i=1nN(xi|θ,1)=i=1n12πexp(12(xiθ)2)=(2π)n/2exp(12i=1n(xiθ)2).=(2π)n/2exp(n2(θ22x¯θ+x¯¯))=(2π)n/2exp(nx¯¯2)exp(n2(θ22x¯θ))

Тепер ми можемо працювати безпосередньо з цією щільністю вибірки, якщо хочемо. Але зауважте, що перші два доданки в цій щільності є мультиплікативними константами, які не залежать від . Довольно слідкувати за цими термінами, тому давайте просто позбудемось їх, щоб ми мали функцію ймовірності:θ

Lx(θ)=exp(n2(θ22x¯θ)).

Це трохи спрощує речі, оскільки нам не потрібно слідкувати за додатковим терміном. Тепер ми можемо застосувати правило Байєса, використовуючи його повну версію рівняння, включаючи інтегральний знаменник. Але знову ж таки, це вимагає від нас відслідковувати ще одну дратівливу мультиплікативну константу, яка не залежить від (більш дратівлива, тому що ми повинні вирішити інтеграл, щоб її отримати). Тож давайте просто застосуємо правило Байєса в його пропорційній формі. Використовуючи сполучений попередній , з деяким відомим параметром точності , ми отримуємо такий результат ( заповнивши квадрат ):θθN(0,λ0)λ0>0

p(θ|x)Lx(θ)p(θ)=exp(n2(θ22x¯θ))N(θ|0,λ0)exp(n2(θ22x¯θ))exp(λ02θ2)=exp(12(nθ22nx¯θ+λ0θ2))=exp(12((n+λ0)θ22nx¯θ))=exp(n+λ02(θ22nx¯n+λ0θ))exp(n+λ02(θnn+λ0x¯)2)N(θ|nn+λ0x¯,n+λ0).

Отже, з цієї роботи ми бачимо, що задній розподіл пропорційний нормальній щільності. Оскільки заднє повинно бути густиною, це означає, що заднє - це нормальна щільність:

p(θ|x)=N(θ|nn+λ0x¯,n+λ0).

Отже, ми бачимо, що післяопераційний параметр звичайно розподіляється із середнім заднім значенням та дисперсією, заданими:θ

E(θ|x)=nn+λ0x¯V(θ|x)=1n+λ0.

Тепер отриманий нами задній розподіл має постійну інтеграцію з передньої частини (що ми можемо легко знайти, шукаючи форму нормального розподілу ). Але зауважте, що нам не довелося турбуватися про цю мультиплікативну константу - всі наші робочі видаляли (або вводили) мультиплікативні константи, коли це спрощувало математику. Цей же результат можна отримати, відслідковуючи мультиплікативні константи, але це набагато швидше.


0

Я думаю, що відповідь Дзен дійсно говорить вам про те, як концептуально функціональна ймовірність та спільна щільність значень випадкових величин різняться. Математично як функція і x s, і θ вони однакові, і в цьому сенсі ймовірність можна розглядати як щільність ймовірності. Різниця, яку ви вказуєте у формулі заднього розподілу Байєса, є лише нотаційною різницею. Але тонкість різниці добре пояснюється у відповіді Дзен.i

Це питання виникло і в інших питаннях, обговорених на цьому веб-сайті, щодо функцій вірогідності. Також інші коментарі kjetil і Dilip, здається, підтримують те, що я говорю.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.