Розуміння бета-кон'югату попереднього в байєсівському висновку про частоту


11

Далі - уривок із вступу Болстада до байєсівської статистики .

Я читаю т

Для всіх вас, фахівців, це може бути тривіально, але я не розумію, як автор робить висновок, що нам не потрібно робити ніякої інтеграції, щоб обчислити задню ймовірність деякого значення . Я розумію, другий вираз - пропорційність і звідки походять усі терміни ( вірогідність х Попередня)π . Крім того, я розумію, нам не потрібно турбуватися про знаменник, оскільки лише чисельник прямо пропорційний. Але переходимо до третього рівняння , чи не забуваємо ми про знаменник правила Байєса? Куди воно пішло? І значення, обчислене функціями Gamma, чи не є постійною? Чи не відміняються константи в теоремі Байєса?


5
Існує лише одна можлива константа, а саме та, яка робить функцію густиною ймовірності.
Сіань

Відповіді:


10

Річ у тім, що ми знаємо, до чого задні пропорційні, і так трапляється, що нам не потрібно робити інтеграцію, щоб отримати (постійний) знаменник, оскільки ми визнаємо, що розподіл з щільністю ймовірності функціонує пропорційно (такий як задній) - це бета-розподіл. Оскільки константа нормалізації для такого бета-pdf дорівнює Γ ( α + β )xα1×(1x)β1 , отримуємо задній pdf без інтеграції. І так, нормалізуюча константа в теоремі Байєса є постійною (з урахуванням спостережуваних даних та попереднього припущення) так само, як нормалізуюча константа задньої густини.Γ(α+β)Γ(α)Γ(β)


8

Установка

У вас є ця модель: Щільності, для яких f(p)=1

pbeta(α,β)x|pbinomial(n,p)
і, зокрема, зауважте, що
f(p)=1B(α,β)pα1(1p)β1
1
g(x|p)=(nx)px(1p)nx
1B(α,β)=Γ(α+β)Γ(α)Γ(β).

Неявна версія

Тепер. Задній розподіл пропорційний попередньому помноженому на ймовірність . Ми можемо ігнорувати константи (тобто речі, які не є ), поступаючись: g p h ( сfgp

h(p|x)f(p)g(p|x)=pα1(1p)β1pxpnx=pα+x1(1p)β+nx1.

Це має "форму" бета-розподілу з параметрами та , і ми знаємо, якою має бути відповідна нормалізуюча константа для бета-розподілу з цими параметрами: . Або, з точки зору гамма-функцій, Іншими словами, ми можемо зробити трохи краще, ніж пропорційне відношення без зайвих ніг, і перейти прямо до рівності: β + n - x 1 / B ( α + x , β + n - x )α+xβ+nx1/B(α+x,β+nx)

1B(α+x,β+nx)=Γ(n+α+β)Γ(α+x)Γ(β+nx).
h(p|x)=Γ(n+α+β)Γ(α+x)Γ(β+nx)pα+x1(1p)β+nx1.

Отже, можна використовувати знання про структуру бета-розподілу, щоб легко відновити вираз заднього, а не переживати якусь безладну інтеграцію тощо.

Це щось на зразок повного заднього, неявно скасовуючи нормалізуючі константи спільного розподілу, що може заплутати.

Явна версія

Ви також можете розмелювати речі процедурно, що може бути зрозумілішим.

Це насправді не все так багато довше. Зауважте, що ми можемо виразити спільний розподіл як і граничний розподіл як

f(p)g(x|p)=1B(α,β)(nx)pα+x1(1p)β+nx1
x
01f(p)g(x|p)dp=1B(α,β)(nx)01pα+x1(1p)β+nx1dp=1B(α,β)(nx)Γ(α+x)Γ(β+nx)Γ(α+β+nx)

Таким чином, ми можемо виразити заднє за допомогою теореми Байєса через - це те саме, що ми мали раніше.

h(p|x)=f(p)g(x|p)01f(p)g(x|p)dp=1B(α,β)(nx)pα+x1(1p)β+nx11B(α,β)(nx)Γ(α+x)Γ(β+nx)Γ(α+β+n)=Γ(n+α+β)Γ(α+x)Γ(β+nx)pα+x1(1p)β+nx1

7

Загальні зауваження

Щоб зробити відповідь, надану @ Björn, трохи більш чіткою і в той же час більш загальною, ми повинні пам'ятати, що ми прибули до теореми Байєса від

p(θ|X)×p(X)=p(X,θ)=p(X|θ)×p(θ)

p(θ|X)=p(X|θ)×p(θ)p(X) (Байєс Тамем)

де представляє спостережувані дані та наш невідомий параметр, про який ми хотіли б зробити імовірнісні умовиводи - у випадку питання параметр невідома частота . Не будемо зараз хвилюватися, чи говоримо ми про векторів чи скалярів, щоб це було просто.Xθπ

Маргіналізація в безперервному випадку призводить до

p(X)=+p(X,θ)dθ=+p(X|θ)×p(θ)dθ

де спільний розподіл дорівнює як ми бачили вище. Це константа, оскільки після "інтеграції" параметра він залежить лише від постійних умов .p(X,θ)likelihood×prior

Тому ми можемо переформулювати теорему Байєса як

p(θ|X)=Const.×p(X|θ)×p(θ) зConst.=1p(X)=1p(X|θ)×p(θ)dθ

і , таким чином , приходимо до звичайної формі пропорційності з байєсівської теореми .

Застосування до проблеми руки

Тепер ми готові просто підключити те, що ми знаємо, зlikelihood×prior у випадку питання є такою формою

p(X,θ)=p(X|θ)×p(θ)=Aθa+y1(1θ)b+ny1=Aθa1(1θ)b1

де , і деa=a+yb=b+nyA=1B(a,b)(ny) збирає постійні доданки з вірогідності бінома і бета-версії до.

Тепер ми можемо використати відповідь, надану @ Björn, щоб виявити, що це інтегрується в функцію Beta раз набір постійних доданківB(a,b)A так що

p(X)=A01θa1(1θ)b1dθ=AB(a,b)

p(θ|X)=Aθa1(1θ)b1AB(a,b)=θa1(1θ)b1B(a,b)

Зауважте, що будь-який постійний термін у спільному розповсюдженні завжди скасується, оскільки він з’явиться одночасно в номінаторі та в знаменнику (див. Відповідь, надану @jtobin), тому нам насправді не потрібно турбуватися.

Таким чином, ми визнаємо, що наш задній розподіл насправді є бета-розподілом, де ми можемо просто оновити параметри попередника і щоб прийти до заднього. Ось чому бета-розподілений попередній розділ називається попереднім кон'югатом .b = b + n - ya=a+yb=b+ny


Це міркування схоже на неявну версію jtobin. Ми тільки в частині часу правдоподібності попереднього, що містить параметр і оплачені все інше в постійній нормалізації. Таким чином, ми розглядаємо інтеграцію лише як остаточний крок, який є законним, оскільки константи скасовують, як jtobin показав у своїй явній версії.
gwr
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.