Задні дуже відрізняються від попереднього та ймовірного


21

Якщо пріоритет і ймовірність сильно відрізняються один від одного, то іноді виникає ситуація, коли задній не схожий ні на один. Дивіться, наприклад, цю картинку, яка використовує звичайні розподіли.

Задня поведінка

Хоча це математично правильно, це, схоже, не відповідає моїй інтуїції - якщо дані не збігаються з моїми твердими переконаннями або даними, я б очікував, що жоден діапазон не пройде добре, і я б очікував або плоскої задньої частини над весь діапазон чи, можливо, бімодальний розподіл навколо попереднього та ймовірного (я не впевнений, що має більш логічний сенс). Я, звичайно, не сподівався на тісний задник навколо діапазону, який не відповідає ні моїм попереднім переконанням, ні даним. Я розумію, що в міру того, як буде зібрано більше даних, задній буде рухатися до ймовірності, але в цій ситуації це здається контрінтуїтивним.

Моє запитання: як моє розуміння цієї ситуації є хибним (чи воно недосконалим). Чи є задній "правильною" функцією для даної ситуації. А якщо ні, то як інакше це можна моделювати?

Для повноти пріоритет задається як а ймовірність як .N ( μ = 6,1 , σ = 0,4 )N(μ=1.5,σ=0.4)N(μ=6.1,σ=0.4)

EDIT: Дивлячись на деякі відповіді, я відчуваю, що я не дуже добре пояснив ситуацію. Моя думка, байєсівський аналіз, здається, дає неінтуїтивний результат, враховуючи припущення в моделі. Я сподівався на те, що задня частина якимось чином "пояснить", можливо, погані модельні рішення, що, коли думати, точно не так. Я розкрию це питання у своїй відповіді.


2
Це тоді просто означатиме, що ви не можете припустити нормальність задньої частини. Якщо ви вважаєте, що заднє є нормальним, то це справді було б правильно.
PascalVKooten

Я не робив жодного припущення про заднє, лише попереднє та ймовірне. І в будь-якому випадку форма розподілу здається тут неактуальною - я міг би намалювати їх вручну, і той самий задній слід було б слідувати.
Ронан Далі

Я просто кажу, що ви відкинете свою віру в цю задню частину, якщо ви не вважаєте, що заднє може бути нормальним. Зважаючи на нормальні попередні та нормальні дані, нормальна задня частина справді була б такою. Можливо, уявіть собі невеликі дані, щось подібне може тоді насправді трапитися в реальності.
PascalVKooten

1
Чи правильна ця цифра? Здається, що ймовірність попередня повинна бути дуже близькою до 0, оскільки вони ніколи не перетинаються. У мене виникають труднощі бачити, як ваш задник може зазирнути туди, оскільки вага попереднього дуже близький до 0. Я щось пропускаю? ×
Лука

1
@Luca Ви забуваєте про повторну нормалізацію. Продукт попереднього імовірності близький до нуля, так - але коли ви його повторно нормалізуєте, щоб він знову інтегрувався до 1, це стає неактуальним.
Пт

Відповіді:


5

Так, ця ситуація може виникнути і є особливістю ваших припущень моделювання, зокрема, нормальності в попередній моделі та моделі вибірки (вірогідність). Якби замість цього ви обрали дистрибутив Коші для свого попереднього, задній би виглядав набагато інакше.

prior = function(x) dcauchy(x, 1.5, 0.4)
like = function(x) dnorm(x,6.1,.4)

# Posterior
propto = function(x) prior(x)*like(x)
d = integrate(propto, -Inf, Inf)
post = function(x) propto(x)/d$value

# Plot
par(mar=c(0,0,0,0)+.1, lwd=2)
curve(like, 0, 8, col="red", axes=F, frame=T)
curve(prior, add=TRUE, col="blue")
curve(post, add=TRUE, col="seagreen")
legend("bottomleft", c("Prior","Likelihood","Posterior"), col=c("blue","red","seagreen"), lty=1, bg="white")

Попередня, звичайна модель вибірки


Дякую за вашу відповідь @jaradniemi, чи вважаєте ви, що попередня Коші завжди уникала б конкретної ситуації, заданої у запитанні?
Ронан Далі

1
Так. Як правило, великі хвостові пріори дозволяють даних легше перекрити попередні.
jaradniemi

2
jaradniemi, це може бути так, але якщо ви скажете, що не хочете, щоб ваш вплив впливав на заднє, чому ви вибираєте в першу чергу інформацію? Схоже, ви пропонуєте вибрати капусту, оскільки вона виглядає інформативно, але насправді це не так.
Флоріан Хартіг

1
Якщо попередні та ймовірні згоди погоджуються, то ви отримуєте бажане підвищення точності від попереднього до заднього, і, таким чином, пріоритет є інформативним. Але вибір попередньо важкого хвоста дозволяє ймовірності легко перемогти пріоритет, коли двоє не згодні.
jaradniemi

2

Я дещо не погоджуюся з відповідями, наданими дотепер - нічого дивного в цій ситуації немає. Ймовірність асимптотично нормальна в будь-якому випадку, і нормальний прийом взагалі не рідкість. Якщо ви зібрали обох разом з тим, що попередні та ймовірні не дають однакової відповіді, у нас є ситуація, про яку ми говоримо тут. Я зобразив це нижче з кодом від jaradniemi.

В 1 зазначаємо, що звичайним висновком такого спостереження було б те, що або а) модель структурно неправильна; б) дані неправильні; в) попередня - неправильна. Але щось точно не так, і ви б також це побачили, якби зробили кілька попередньо-прогностичних перевірок, які ви все одно повинні зробити.

1 Hartig, F .; Дайк, Дж .; Гіклер, Т.; Хіггінс, С.І .; О'Хара, РБ; Scheiter, S. & Huth, A. (2012) Підключення динамічних моделей рослинності до даних - обернена перспектива. J. Biogeogr., 39, 2240-2252. http://onlinelibrary.wiley.com/doi/10.1111/j.1365-2699.2012.02745.x/ab Abstract

prior = function(x) dnorm(x,1,.3)
like = function(x) dnorm(x,-1,.3)

# Posterior
propto = function(x) prior(x)*like(x)
d = integrate(propto, -Inf, Inf)
post = function(x) propto(x)/d$value

# Plot
par(mar=c(0,0,0,0)+.1, lwd=2)
curve(like, -2, 2, col="red", axes=F, frame=T, ylim = c(0,2))
curve(prior, add=TRUE, col="blue")
curve(post, add=TRUE, col="seagreen")
legend("bottomleft", c("Prior","Likelihood","Posterior"), col=c("blue","red","seagreen"), lty=1, bg="white")

введіть тут опис зображення


2

Мені здається, що відповідь, яку я шукав, коли дійшов до цього питання, найкраще узагальнений Лесаффром та Лоусоном у байєсівській біостатистиці

1σ2=w0+w1
μσ

Що підсумовує це для мене, і грубо окреслено в інших відповідях, це те, що випадок моделювання нормальних пріорів з нормальною ймовірністю може призвести до ситуації, коли задня частина точніша за будь-яку. Це контрінтуїтивно, але є особливим наслідком моделювання цих елементів таким чином.


Це узагальнює у вищому вимірі матрицю Фішера. Гессіанство вірогідності зрубу заднього розподілу біля свого піку є сумою попередніх та ймовірних зворотних коваріацій. Оберненою цією сумою є коваріація задньої. Оскільки додаються дві позитивні (напів) визначені матриці (зворотні коваріани), математично гарантується, що точність заднього перекриття перевищить попередній або ймовірний розподіл ймовірностей. Це універсальний результат у байесівських рамках.
T3am5hark

2

X1X0μN(1.6,0.42)X1N(μ,0.42)X1X10.42+0.42=0.562ϕ((6.11.6)/0.56)=9.31016μ

X0N(μ,0.42)X0X0X1|X1X0|>6.11.6

X0X1


1

Поміркувавши над цим деякий час, мій висновок полягає в тому, що за поганих припущень моделювання, задній може бути результатом, який не відповідає ні попереднім переконанням, ні ймовірності. Звідси природний результат є заднім це НЕ , в загальному, до кінця аналізу. Якщо випадок, що задній повинен приблизно відповідати даним або він повинен бути розсіяним між попереднім та ймовірним (у цьому випадку), то це доведеться перевірити за фактом, ймовірно, за допомогою попередньо-передбачувальної перевірки чи чогось іншого подібний. Для включення цього в модель, здавалося б, потрібна здатність розміщувати ймовірності на ймовірнісних твердженнях, що, на мою думку, не можливе.


так, я згоден, дивіться мою більш детальну відповідь
Флоріан Хартіг

0

Я думаю, що це насправді цікаве питання. Спав на ній, я думаю, що у мене є відповідь. Ключове питання полягає в наступному:

  • Ви трактували ймовірність як гауссовий PDF-файл. Але це не розподіл ймовірностей - це ймовірність! Більше того, ви не позначили чітко свою вісь. Ці речі разом поєднували все, що випливає.

μσP(μ|μ,σ)μσP(X|μ,σ)XP(μ|X,σ,μ,σ)μ

μP(X|μ)

P(μ|μ,σ)=exp((μμ)22σ2)12πσ2

P(X|μ,σ)=i=1Nexp((xiμ)22σ2)12πσ2

σ2=σ2/N. In other words, your prior is very informative, as its variance is going to be much lower than σ2 for any reasonable value of N. It is literally as informative as the entire observed dataset X!

So, the prior and the likelihood are equally informative. Why isn't the posterior bimodal? This is because of your modelling assumptions. You've implicitly assumed a normal distribution in the way this is set up (normal prior, normal likelihood), and that constrains the posterior to give a unimodal answer. That's just a property of normal distributions, that you have baked into the problem by using them. A different model would not necessarily have done this. I have a feeling (though lack a proof right now) that a cauchy distribution can a have multimodal likelihood, and hence a multimodal posterior.

So, we have to be unimodal, and the prior is as informative as the likelihood. Under these constraints, the most sensible estimate is starting to sound like a point directly between the likelihood and prior, as we have no reasonable way to tell which to believe. But why does the posterior get tighter?

I think the confusion here comes from the fact that in this model, σ is assumed to be known. Were it unknown, and we had a two dimensional distribution over μ and σ the observation of data far from the prior might make a high value of σ more probable, and so increase the variance of the posterior distribution of the mean too (as these two are linked). But we're not in that situation. σ is treated as known here. A such adding more data can only make us more confident in our prediction of the position of μ, and hence the posterior becomes narrower.

(A way to visualise it might be to imagine estimating the mean of a gaussian, with known variance, using just two sample points. If the two sample points are separated by very much more than the width of the gaussian (i.e. they're out in the tails), then that's strong evidence the mean actually lies between them. Shifting the mean just slightly from this position will cause an exponential drop off in the probability of one sample or another.)

In summary, the situation you have described is a bit odd, and by using the model you have you've included some assumptions (e.g. unimodality) into the problem that you didn't realise you had. But otherwise, the conclusion is correct.


Дякую за вашу відповідь @Pat, я згоден з більшістю того, що ви тут говорите, проблема, яка була налаштована, була трохи неохайною (хоча ймовірність - це просто функція параметрів, тому добре, що це щільність ймовірності заради прикладу). Мені слід справді зробити аналізмк і σ безкоштовно, але чи вважаєте ви дифузним до цього? σ завжди уникає ситуації, наведеної у питанні, для граничного заднього мк?
Ронан Далі
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.