Максимальні параметри ймовірності відхиляються від заднього розподілу


11

У мене є функція ймовірності для ймовірності моїх даних урахуванням деяких параметрів моделі , які я хотів би оцінити. Якщо припустити плоскі пріори за параметрами, вірогідність пропорційна задній ймовірності. Я використовую метод MCMC для вибірки цієї ймовірності.L(г|θ)гθRN

Дивлячись на результуючий конвергентний ланцюг, я знаходжу, що максимальні параметри ймовірності не відповідають заднім розподілам. Наприклад, маргіналізований задній розподіл ймовірності для одного з параметрів може бути , тоді як значення в максимальній точці ймовірності - , по суті є майже максимальним значенням пройденим семплером MCMC.θ0N(мк=0,σ2=1)θ0θ0МL4θ0

Це наочний приклад, а не мої фактичні результати. Реальні розподіли набагато складніші, але деякі параметри ML мають аналогічно малоймовірні значення p у відповідних задніх розподілах. Зауважте, що деякі мої параметри обмежені (наприклад, ); в межах, пріори завжди рівномірні.0θ11

Мої запитання:

  1. Є чи таке відхилення проблема сама по собі ? Очевидно, я не очікую, що параметри ML точно збігаються з максимумами кожного їх маргіналізованого заднього розподілу, але інтуїтивно відчувається, що їх також не слід знаходити глибоко в хвостах. Чи це відхилення автоматично визнає недійсними мої результати?

  2. Чи це обов'язково проблематично чи ні, чи може це бути симптоматичним щодо конкретних патологій на якомусь етапі аналізу даних? Наприклад, чи можна зробити якесь загальне твердження про те, чи може таке відхилення викликати неправильно зведений ланцюг, неправильна модель або надмірно обмежені межі параметрів?

Відповіді:


15

При плоских пріорах задній ідентичний імовірності до постійної. Таким чином

  1. MLE (оцінюється за допомогою оптимізатора) має бути ідентичним MAP (максимальне значення posteriori = багатофакторний режим заднього, оцінене за MCMC). Якщо ви не отримуєте однакового значення, у вас проблема з пробовідбірником або оптимізатором.

  2. Для складних моделей дуже часто зустрічається, що граничні режими відрізняються від MAP. Це відбувається, наприклад, якщо кореляції між параметрами нелінійні. Це абсолютно добре, але граничні режими не повинні тлумачитись як точки найвищої задньої щільності і не порівнюватися з MLE.

  3. Однак у вашому конкретному випадку я підозрюю, що задній проходить проти попередньої межі. У цьому випадку задня частина буде сильно асиметричною, і не має сенсу інтерпретувати її з точки зору середнього значення, sd. Принципової проблеми з цією ситуацією немає, але на практиці вона часто натякає на неправильне визначення моделі або на погано обрані пріорі.


15

Деякі можливі загальні пояснення цього невідповідності, якщо, звичайно, немає жодного питання з кодом чи визначенням ймовірності, реалізацією MCMC або кількістю ітерацій MCMC або зближенням максимізатора ймовірності (спасибі, Якоб Соколар ):

  1. NNθ|хNN(0,ЯN)θN-22N0

  2. Незважаючи на те, що MAP і MLE дійсно заплутані під рівним раніше, граничні щільності різних параметрів моделі можуть мати (граничні) режими, далекі від відповідних MLE (тобто MAP).

  3. MAP - це положення в просторі параметрів, де задня щільність є найвищою, але це не означає жодної вказівки на задню вагу або об'єм для мікрорайонів MAP. Дуже тонкий шип не має задньої ваги. Це також причина, чому МСМК дослідження заднього відділу можуть зіткнутися з труднощами у визначенні заднього режиму.

  4. Той факт, що більшість параметрів обмежений, може призвести до того, що деякі компоненти MAP = MLE мають місце на кордоні.

Див., Наприклад, Druihlet and Marin (2007) щодо аргументів щодо небайсейського характеру оцінювачів MAP. Один - залежність цих оцінок від домінуючої міри, інший - відсутність інваріантності в умовах репараметрізації (на відміну від МЛВ).

Як приклад пункту 1 вище, ось короткий R-код

N=100
T=1e4
lik=dis=rep(0,T)
mu=rmvnorm(1,mean=rep(0,N))
xobs=rmvnorm(1,mean=rep(0,N))
lik[1]=dmvnorm(xobs,mu,log=TRUE)
dis[1]=(xobs-mu)%*%t(xobs-mu)
for (t in 2:T){
  prop=rmvnorm(1,mean=mu,sigma=diag(1/N,N))
  proike=dmvnorm(xobs,prop,log=TRUE)
  if (log(runif(1))<proike-lik[t-1]){
    mu=prop;lik[t]=proike
     }else{lik[t]=lik[t-1]}
    dis[t]=(xobs-mu)%*%t(xobs-mu)}

яка імітує послідовність послідовності Метрополіса-Гастінгса в розмірності N = 100. Значення вірогідності журналу на MAP становить -91,89, але відвідувані ймовірності ніколи не наближаються:

> range(lik)
[1] -183.9515 -126.6924

що пояснюється тим, що послідовність ніколи не наближається до спостереження:

> range(dis)
[1]  69.59714 184.11525

3
Я просто додам, що крім турботи про код або визначення ймовірності чи впровадження MCMC, ОП може також непокоїтись, чи програмне забезпечення, яке використовується для отримання оцінки МЛ, потрапило в локальний оптимум. stats.stackexchange.com/questions/384528/…
Яків Соколар
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.