Чи потрібен байєсівський задній задля правильного розподілу?


21

Я знаю, що пріори не повинні бути належними і що ймовірність функції не інтегрується до 1. Але чи повинен задній бути правильним розподілом? Які наслідки, якщо це / ні?

Відповіді:


15

(Чи не дивно читати попередні відповіді, які зосереджуються на потенційній невідповідності задньої частини, коли пріоритет є належним, оскільки, наскільки я можу сказати, питання полягає в тому, чи має бути заднє місце належним чи ні ( тобто інтегрується в одне), щоб бути правильним (тобто прийнятним для байєсівського висновку) задньо.)

У статистиці Байєсова, заднє розподіл має бути розподілом ймовірностей, з якого можна вивести такі моменти задніх середнього і імовірнісні затвердження , як охоплення заслуговує на довіру область, . Якщо задній не може нормалізуватись до щільності ймовірності, і байєсівський висновок просто не може бути проведений. Задня просто в таких випадках не існує.Еπ[год(θ)|х]П(π(θ|х)>κ|х)

f(х|θ)π(θ)гθ=+,(1)
π(θ|х)

Насправді (1) має міститись для всіх у вибірковому просторі, а не лише для спостережуваного для, інакше вибір попереднього залежатиме від даних . Це означає, що пріори, подібні до попереднього Haldane, , на ймовірності p біноміальної чи негативної біноміальної змінної X не можуть бути використані, оскільки задній не є визначено для x = 0 .х хπ(p){1/p(1-p)}pХх=0

Я знаю один виняток, коли можна вважати "неналежні афіші": це знайдено в "Мистецтві збільшення даних" Девіда ван Дайка та Сяо-Лі Менга. Неправильна міра над так званим робочим параметром така, що спостереження виробляється на межі розширеного розподілу а Ван Дік і Менг поставили неправильний попередній на цей робочий параметр щоб прискорити моделювання (що залишається чітко визначеним як щільність ймовірності) MCMC.f ( x | θ ) = T ( x aug ) = x f ( x aug | θ , α )α p ( α ) α π ( θ | x )

f(х|θ)=Т(хавг)=хf(хавг|θ,α)гхавг
p(α)απ(θ|х)

В іншому ракурсі, дещо пов'язаному з відповіддю еретмочелісів , а саме з точки зору теорії рішень Байєса, умова , де (1) має місце, все ще може бути прийнятним, якби це призвело до оптимальних рішень. А саме, якщо - функція втрат, що оцінює вплив використання рішення , оптимальне баєсовське рішення за попереднім задається і все, що важливо, це те, що цей інтеграл не скрізь (в ) нескінченний. Незалежно від того, чи утримується (1), є вторинним для виведенняδ π δ ( x ) = arg min min δ L ( δ , θ ) f ( xL(δ,θ)0δπδ δ ( x )

δ(х)=аргхвδL(δ,θ)f(х|θ)π(θ)гθ
δδ(х), навіть незважаючи на те, що такі властивості, як прийнятність, гарантуються лише тоді, коли (1) має місце.

19

Задній розподіл не повинен бути належним, навіть якщо попереднє є правильним. Наприклад, припустімо, що має гамму до форми 0,25 (що є правильним), і ми моделюємо нашу дату як виведену з розподілу Гаусса із середнім нулем та дисперсією . Припустимо, що спостерігається рівним нулю. Тоді ймовірність пропорційна , що робить задній розподіл для неправильним, оскільки він пропорційний . Ця проблема виникає через нерозумний характер безперервних змінних.x v x p ( x | v ) v - 0,5 v v - 1,25 e - vvxvxp(x|v)v0.5vv1.25ev


Класний приклад, Томе!
Дзен

+1, хоча ви могли б розширити відповідь на останнє речення ОП? Чи має значення ця хитра задня частина (чи можете ви робити речі, які ви зазвичай робите з задньою частиною), чи це аналогічно отримання NaN або Inf за деякими підрахунками? Це ознака того, що з вашою моделлю щось не так?
Уейн

5
У моделі нічого поганого. Ця задня частина має сенс у тому сенсі, що якщо ви отримаєте інше спостереження, ви можете помножити його і, можливо, повернутися до належної задньої частини. Отже, це не як NaN, на якому всі подальші операції є NaN.
Тома Мінка

8
Хоча це, мабуть, занадто пізно для значення, я не думаю, що використання таких «зустрічних прикладів» допомагає новачкам: проблема виникає через те, що ви використовуєте конкретну версію гауссової щільності при , коли її можна довільно визначити на цьому наборі вимірювання нуля. А отже, зробіть задню частину правильною чи неправильною залежно від обраної версії. x=0
Сіань

Цікаво - якщо взяти загальний , то задній - це узагальнений зворотний з параметрами . @ Xi'an - було б добре бачити альтернативний спосіб отримати належну задню частину цього. - 0,25 , 1 , x 2х-0,25,1,х2
ймовірністьлогічного

11

Визначаючи набір ,, have Останній інтеграл буде дорівнює якщо міра Лебега додатна. Але це неможливо, тому що цей інтеграл дає вам ймовірність (реальне число між і ). Звідси випливає, що міра Лебега дорівнює , і, звичайно, також випливає, щоP r ( X Bogus Data ) = Bogus Data f ( x

Багусні дані={х:f(хθ)π(θ)гθ=},
Дані богуса 0 1 Дані богуса 0 P r ( X Дані богуса ) = 0
Пr(ХБагусні дані)=Багусні даніf(хθ)π(θ)гθгх=Багусні данігх.
Багусні дані01Багусні дані0Пr(ХБагусні дані)=0 .

На словах: попередня прогнозована ймовірність тих вибіркових значень, які роблять задній неправильний, дорівнює нулю.

Мораль історії: остерігайтеся нульових наборів, вони можуть вкусити, як би це не було неймовірним.

PS Як вказував професор Роберт у коментарях, це міркування вибухає, якщо попереднє рішення є неналежним.


4
Ви колись писали : "Якщо ми можемо почати з належного попереднього і отримати неправильну задню частину, тоді я кину висновок".
Тома Мінка

2
Трохи язиком у щоках з’явився неявний кількісний коефіцієнт: Якщо ми можемо почати з належного попереднього та отримати неправильну задню частину, для кожного можливого значення вибірки, тоді я кину висновок. ;-)
Дзен

До речі, чудова пам’ять, Томе!
Дзен

4
@Zen: Я думаю, що існує проблема з вашими міркуваннями в тому, що ви припускаєте, що є ймовірністю, отже, спільний захід на - міра ймовірності, з якої випливає, що попередня повинна бути (власною) мірою ймовірності. ( θ , x )Пr(ХБагусні дані)(θ,х)
Сіань

1
Ви маєте рацію. Міркування у відповіді працюють лише з належними пріорами. Влучне зауваження. Я додам записку.
Дзен

3

Будь-який "розподіл" повинен підсумовувати (або інтегрувати) до 1. Я можу привести декілька прикладів, коли можна працювати з ненормованими розподілами, але мені незручно ніколи називати все, що маргіналізується ні до чого, крім 1, "розподілом".

Зважаючи на те, що ви згадали баєсівську задню, я думаю, що ваше запитання може виникнути з проблеми класифікації пошуку оптимальної оцінки огляду на деякий вектор функціїхг

х^=аргмаксхПХ|D(х|г)=аргмаксхПD|Х(г|х)ПХ(х)ПD(г)=аргмаксхПD|Х(г|х)ПХ(х)

де остання рівність походить від того, що не залежить від . Тоді ми можемо вибрати наш виключно виходячи із значення яке пропорційно нашому байєсівському задньому, але не плутати його з імовірністю! х х P D | X ( d | x ) P X ( x )ПDхх^ПD|Х(г|х)ПХ(х)


@ Zen чи не заперечуєте ви про те, що ви вважаєте неправильним (або принципово неповним) щодо цієї відповіді?
whuber

1
Один із способів інтерпретації питання про ОП "чи потрібен задній простір для правильного розподілу?" це запитати, чи можна математично починати з належного попереднього і закінчувати неправильною задньою. Відповідь Мінки дає явний приклад, у якому це відбувається. Я спробував доповнити його своєю відповіддю і зазначив, що це може статися лише в наборі нульових попередніх прогнозованих ймовірностей.
Дзень

1
@Zen Мені здається, що тісно пов'язане тлумачення - "якщо задній не є належним, яку інформацію я можу отримати від нього?" Ця прийнята відповідь виглядає так, що дає корисні та правильні поради, пов’язані з цим у особливих обставинах (що чітко описано). Прийняття здається мені сигналом, що еретмочелі вдарили додому проникливою здогадкою про обставини.
whuber

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.