Як неправильне попереднє приведення до правильного заднього розподілу?


22

Ми знаємо, що у разі правильного попереднього розповсюдження,

P(θX)=P(Xθ)P(θ)P(X)

П(Xθ)P(θ) .

Звичайне обгрунтування цього кроку полягає в тому, що граничний розподіл , є постійним відносно і може бути ігнорований при виведенні заднього розподілу.XθP(X)θ

Однак, у випадку неправильного попереднього, як ви знаєте, що задній розподіл насправді існує? Здається, щось не вистачає в цьому, здавалося б, круговому аргументі. Іншими словами, якщо я припускаю, що заднє існує, я розумію механіку виведення задньої, але, здається, мені не вистачає теоретичного обгрунтування того, чому воно взагалі існує.

PS Я також визнаю, що бувають випадки, коли неправильний попередній привід призводить до неправильної задньої.

Відповіді:


16

Ми, як правило, приймаємо афіші від неправильних пріорів якщо існує і є дійсним розподілом ймовірності (тобто, вона інтегрується рівно до 1 над підтримкою). По суті, це зводиться до є кінцевим. Якщо це так, то ми називаємо цю кількість і приймаємо її як задній розподіл, який ми хочемо. Однак важливо відзначити, що це НЕ задній розподіл, а також не умовний розподіл ймовірностей (ці два терміни є синонімами в контексті тут).π ( X θ ) π ( θ )π(θ) π(X)=π(Xθ)π(θ)

π(Xθ)π(θ)π(X)
π ( θ X )π(X)=π(Xθ)π(θ)dθπ(θX)

Тепер я сказав, що ми приймаємо "задню" дистрибуцію від неналежних пріорів з огляду на вищезазначене. Причина, яку вони приймають, полягає в тому, що пріоритет все ще дасть нам відносні «бали» на просторі параметрів; тобто співвідношення вносить сенс у наш аналіз. Значення, яке ми отримуємо від неправильних пріорів, в деяких випадках може бути недоступним у власних приорах. Це потенційне виправдання для їх використання. Дивіться відповідь Серхіо для більш ретельного вивчення практичної мотивації для неправомірних пріорів.π ( θ 1 )π(θ)π(θ1)π(θ2)

Варто зазначити, що ця кількість також має бажані теоретичні властивості, Degroot & Schervish :π(θX)

Неправильні пріори не є істинними розподілами ймовірностей, але якщо ми зробимо вигляд, що вони є, ми обчислимо задній розподіл, який наближається до позиціонерів, які ми отримали б за допомогою правильних спряжених пріорів із екстремальними значеннями попередніх гіперпараметрів.


Мене бентежить кілька речей у вашій відповіді. Ви кажете, що ми приймаємо плакатів, якщо вищесказане обмежено. Чи означає це, якщо цей інтеграл не є кінцевим, задній не буде кінцевим? Крім того, вам здається, ви маєте на увазі, що ми використовуємо заднє в цьому випадку, але це не реальна дистрибуція - це правильно? чи не буває випадків, коли це реальний розподіл? Крім того, яке відношення до пріорів стосується цього? Я не бачу зв'язку.
Бен Елізабет Уорд

@BenElizabethWard Якщо існує, то інтеграл повинен існувати (і, таким чином, бути кінцевим). Протиположне так само: якщо не існує (нескінченно), то не існує. Коли він існує і є дійсним розподілом ймовірностей, є розподілом ймовірностей. Однак це не задній розподіл для із заданими вірогідністю даних . Задня для цього попереднього не існує. Ми приймаємо в нашому аналізі, оскільки це наближення. π(θX)π(X)π(X)π(θX)π(θX)π(θ)π(Xθ)π(θX)

1
@BenElizabethWard Коефіцієнт був використаний, щоб продемонструвати, що попереднє все ще містить корисну інформацію, яку ми, можливо, не зможемо завантажити у відповідний попередній. Я відредагую свою відповідь, щоб включити цю.

2
@jsk не є розподілом ймовірностей, але визначення заднього розподілу вимагає, щоб був розподілом ймовірностей, тому обман називати задній розподілом коли це розподіл ймовірностей. Degroot & Schervish кажуть, що ".. ми обчислимо задні розподіли, які ..", за якими вони припускають, що ви погодилися "робити вигляд, що вони [неналежні пріорі] є [належними пріорами]", як це було виражено раніше в цитаті. π(θ)π(θ)π(θX)

1
Щоб відповідь була повноцінною та самодостатньою, щоб майбутнім читачам не довелося читати цей обмін коментарями, ви хочете оновити свою відповідь?
jsk

9

Є "теоретична" відповідь і "прагматична".

З теоретичної точки зору, коли пріоритет є неправильним, задній не існує (ну, подивіться на відповідь Метью щодо звукозапису), але може бути наближений обмежувальною формою.

Якщо дані містять умовно ідентичний зразок з розподілу Бернуллі з параметром , а θ має бета-розподіл з параметрами α і β , задній розподіл θ - це бета-розподіл з параметрами α + s , β + n - s ( n спостереження, успіхи s ) та його середнє значення ( α + s ) / ( α + β + n )θθαβθα+s,β+nsns(α+s)/(α+β+n). Якщо ми використаємо неправильний (і нереальний) бета-розподіл до попередніх гіперапараметрів , і зробимо вигляд, що π ( θ ) θ - 1 ( 1 - θ ) - 1 , отримаємо належний задній розмір, пропорційний θ s - 1 ( 1 - θ ) n - s - 1 , тобто pdf бета-розподілу з параметрами s та n - sα=β=0π(θ)θ1(1θ)1θs1(1θ)ns1snsкрім постійного фактора. Це обмежувальна форма задньої частини бета-версії до параметрів та β 0 (Degroot & Schervish, приклад 7.3.13).α0β0

У звичайній моделі із середнім відома дисперсія σ 2 та N ( μ 0 , τ 2 0 ) попереднього розподілу для θ , якщо попередня точність, 1 / τ 2 0 , мала відносно точності даних, н / σ 2 , то задній розподіл приблизно такий, як якщо τ 2 0 = : p ( θ x ) N ( θ ˉθσ2N(μ0,τ02)θ1/τ02n/σ2τ02= тобто задній розподіл приблизно такий, який був би результатом припущення, щоp(θ)пропорційний константі приθ(-,), розподіл, який не є строго можливим, але обмежує форму задніх, оскількиτ 2 0 підходівіснує (Gelman et al., p. 52).

p(θx)N(θx¯,σ2/n)
p(θ)θ(,)τ02

З "прагматичної" точки зору, коли p ( x θ ) = 0, що б не було p ( θ ) , тож якщо p ( x θ ) 0 в ( a , б ) , тоді - p ( x θ ) p ( θp(xθ)p(θ)=0p(xθ)=0p(θ)p(xθ)0(a,b) . Неправильні пріори можуть бути використані для представленнялокальноїповедінки попереднього розподілу в регіоні, де ймовірність помітна, скажімо, ( а , б ) . Припускаючи, що для достатнього наближення a, наступні такі форми, як f ( x ) = k , x ( - , ) або fp(xθ)p(θ)dθ=abp(xθ)p(θ)dθ(a,b)f(x)=k,x(,) лише над ( a , b ) , що він належним чином дорівнює нулю за межами цього діапазону, ми впевнені, що використовувані пріори є правильними (Box і Tiao, p. 21 ). Отже, якщо попередній розподіл θ є U ( - , ), але ( a , b ) обмежений, це як би θ U ( a ,f(x)=kx1,x(0,)(a,b)θU(,)(a,b) , тобто p ( x θ ) p ( θ ) = p ( x θ ) k p ( x θ ) . На конкретному прикладі це те, що відбувається вСтен: якщо для параметра не вказано жодного попереднього значення, то імпліцитно надається рівномірний при його підтримці, і це обробляється як множення ймовірності на постійну.θU(a,b)p(xθ)p(θ)=p(xθ)kp(xθ)


Чи можете ви сказати більше про те, чому вона не існує з теоретичної точки зору?
jsk

Я не міг викласти кращого за Метью у своїй відповіді та коментарях.
Серхіо

У прагматичному розділі що це? Також у цьому розділі, чи повинні деякі з термінів бути ймовірністю p ( x θ ) ? p(θx)p(xθ)
jsk

P(θ)=kx1xP(θ)=kθ1

yxξ(.)

2

Однак, у випадку неправильного попереднього, як ви знаєте, що задній розподіл насправді існує?

Задній також може бути невідповідним. Якщо пріоритет є неправильним і ймовірність є плоскою (оскільки немає значущих спостережень), то задня дорівнює попередньому і також є неправильною.

Зазвичай у вас є деякі спостереження, і зазвичай ймовірність не є плоскою, тому заднє є правильним.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.