Чи може хтось пояснити сполучені пріори найпростішими можливими термінами?


23

Я деякий час намагався зрозуміти ідею кон'югованих пріорів у байєсівській статистиці, але просто не розумію. Чи може хтось пояснити цю ідею найпростішими можливими термінами, можливо, використовуючи "приклад Гаусса" як приклад?

Відповіді:


23

Пріоритет для параметра майже завжди матиме певну функціональну форму (пишеться, як правило, за щільністю). Скажімо, ми обмежимось однією конкретною родиною розподілів, і в цьому випадку вибір попереднього зводиться до вибору параметрів цієї родини.

Наприклад, розглянемо нормальну модель YiiidN(μ,σ2) . Для простоти візьмемо також σ2 як відомо. Ця частина моделі - модель для даних - визначає функцію ймовірності.

Для завершення нашої байєсівської моделі тут нам потрібен попередній для μ .

Як було сказано вище, зазвичай ми можемо вказати деяку сімейство розподілу для нашого попереднього для μ і тоді нам залишається лише вибирати параметри цього розподілу (наприклад, часто попередня інформація може бути досить розпливчастою - як, наприклад, де ми хочемо, щоб ймовірність зосередитися - а не дуже конкретної функціональної форми, і у нас може бути достатньо свободи моделювати те, що ми хочемо, вибираючи параметри - скажімо, щоб відповідати попередньому середньому та відхиленню).

Якщо виявиться, що заднє для μ походить від ж сім'ї, що і попередня, тоді цей пріор називається "кон'югатом".

(Завдяки чому воно виявляється поєднаним, це спосіб, який він поєднується з вірогідністю)

Тож у цьому випадку візьмемо гауссова пріоритет для μ (скажімо μN(θ,τ2) ). Якщо ми це зробимо, ми побачимо, що заднє для μ також гауссова. Отже, пріоритет Гаусса був кон'югатом до нашої моделі вище.

Це все, що є насправді - якщо задня частина є з тієї ж сім'ї, що і попередня, це споріднене пріор.

У простих випадках ви можете визначити кон'югат попередньо шляхом перевірки ймовірності. Наприклад, розглянемо біноміальну ймовірність; скидаючи константи, це виглядає як бета-щільність у ; а через те, як сили p і ( 1 - p ) поєднуються, він помножиться на бета до того, як також дасть добуток потужностей p і ( 1 - p ) ... так що ми можемо відразу зрозуміти, що ймовірність того, що бета буде кон'югатом до пpp(1p)p(1p)p у ймовірності бінома.

У випадку з Гауссом найпростіше побачити, що це станеться, враховуючи щільність журналу та ймовірність журналу; ймовірність log буде квадратичною в а сума двох квадратичних - квадратичною, тому квадратична log-пріоритет + квадратична ймовірність log дає квадратичну задню частину (кожен із коефіцієнтів терміну найвищого порядку буде, звичайно, від'ємним).μ


9

Якщо ваша модель належить до експоненціального сімейства , тобто якщо щільність розподілу має вигляд

f(x|θ)=h(x)exp{T(θ)S(x)ψ(θ)}xXθΘ
по відношенню дозаданої домінуючої міри(Лебесг, підрахунок та tc.), деts позначає скалярний добуток надRd і
T:XRdS:ΘRd
- вимірювані функції, сполучені пріори наθ визначаються щільністю вигляду
π(θ|ξ,λ)=C(ξ,λ)exp{T(θ)ξλψ(θ)}
[стосовнодовільно обраної домінуючої міри dν наΘ ] з
C(ξ,λ)1=Θexp{T(θ)ξλψ(θ)}dν<
іλΛR+ ,ξΞλT(X)

Вибір домінуючої міри визначальний для родини пріорів. Якщо, наприклад, хтось стикається з середньою середньою ймовірністю нормальної величини на μ як у відповіді Glen_b , вибір вибору міри Лебега dμ як домінуючої міри призводить до сполучення нормальних пріорів. Якщо замість цього вибирати (1+μ2)2dμ як домінуючу міру, то кон'юговані пріори знаходяться в сімействі розподілів з щільністю

exp{α(μμ0)2}α>0,  μ0R
щодо цієї домінуючої міри, і тому більше не є Нормальними пріорами. Ця складність, по суті, така ж, як і вибір певної параметризації ймовірності та вибір міри Лебега для цієї параметризації. Якщо ви зіткнулися з функцією правдоподібності, на просторі параметрів немає властивої (або внутрішньої або опорної) міри, що домінує.

Поза цією експоненціальною сімейною обстановкою не існує нетривіального сімейства розподілів із фіксованою підтримкою, яка дозволяє поєднувати пріори. Це наслідок леми Дармуа-Пітмана-Коопмана .


11
"найпростішими можливими термінами?" Можливо, пояснення, яке не передбачає попереднього знання заходів, було б кориснішим для ОП.

3
на жаль, я боюся, що споріднені пріори безглузді без міри (хоча це найкраще зберігається таємниця у Всесвіті).
Сіань

6
На мою думку, "найпростіші можливі терміни" є відкритими для тлумачення, і пояснення, яке використовує вдосконалену математику, таку як теорія мір, все ще може бути "простим" у певному сенсі, можливо, навіть "простішим", ніж пояснення, яке уникає подібних механізмів. У будь-якому випадку таке пояснення може бути дуже освічуючим для того, хто має необхідний досвід для його розуміння, і нешкідливо включати відповідь на зразок цього у перелік різних способів пояснення теми. Відповіді ми пишемо не лише для ОП, але і для всіх майбутніх читачів.
маленькийО

1
@LBogaardt Ваша критика матиме більшу вагу, якби ви могли зв’язатись із одним або кількома питаннями, де, на вашу думку, ця відповідь буде як на тему, так і на більш підходящому рівні. Зауважте, що "простий" не є чітко визначеним терміном і має різні суб'єктивні тлумачення. Незважаючи на те, було б неправдивим пов'язувати це з "математично необоснованим", як пропонують ваші коментарі.
whuber

2
Відповідь Сіань мені не марна. Я чомусь навчився.
маленькийО

2

Мені подобається використовувати поняття "ядро" розподілу. Тут ви залишаєте лише ті частини, які залежать від параметра. Кілька простих прикладів.

Нормальне ядро

p(μ|a,b)=K1×exp(aμ2+bμ)
Де K - "нормалізуюча константа" K=exp(aμ2+bμ)dμ=πaexp(b24a) Зв'язок із стандартними середніми / дисперсійними параметрами дорівнюєE(μ|a,b)=b2a іVar(μ|a,b)=12a

p(θ|a,b)=K1×θa(1θ)b
K=θa(1θ)bdθ=Beta(a+1,b+1)

Коли ми дивимось на функцію ймовірності, ми можемо зробити те ж саме і висловити її у "формі ядра". Наприклад, з даними про iid

p(D|μ)=i=1np(xi|μ)=Q×f(μ)

For some constant Q and some function f(μ). If we can recognise this function as a kernel, then we can create a conjugate prior for that likelihood. If we take the normal likelihood with unit variance, the above looks like

p(D|μ)=i=1np(xi|μ)=i=1n12πexp((xiμ)22)=[i=1n12π]×i=1nexp((xiμ)22)=(2π)n2×exp(i=1n(xiμ)22)=(2π)n2×exp(i=1nxi22xiμ+μ22)=(2π)n2×exp(i=1nxi22)×exp(μi=1nxiμ2n2)=Q×exp(aμ2+bμ)

where a=n2 and b=i=1nxi and Q=(2π)n2×exp(i=1nxi22)

This likelihood function has the same kernel as the normal distribution for μ, so a conjugate prior for this likelihood is also the normal distribution.

p(μ|a0,b0)=K01exp(a0μ2+b0μ)
The posterior is then
p(μ|D,a0,b0)K01exp(a0μ2+b0μ)×Q×exp(aμ2+bμ)=K01×Q×exp([a+a0]μ2+[b+b0]μ)exp([a+a0]μ2+[b+b0]μ)
Showing that the posterior is also a normal distribution, with updated parameters from the prior using the information in the data.

In some sense a conjugate prior acts similarly to adding "pseudo data" to the data observed, and then estimating the parameters.


1
(+1) I appreciate the pseudo-data intuition!
Xi'an

1

For a given distribution family Dlik of the likelihood (e.g. Bernoulli),

if the prior is of the same distribution family Dpri as the posterior (e.g. Beta),

then Dpri and Dlik are conjugate distribution families and the prior is called a conjugate prior for the likelihood function.

Note: p(θ|x)posteriorp(x|θ)likelihoodp(θ)prior


How does this explain what a conjugate prior is?
LBogaardt

ok I'll edit that.
Thomas G.
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.