Розрахунок граничної ймовірності зразків MCMC


24

Це питання, що повторюється (див. Цю публікацію , цю публікацію та цю публікацію ), але у мене інший виток.

Припустимо, у мене є купа зразків із загального пробовідбору MCMC. Для кожного зразка я знаю значення ймовірності журналу та журналу попереднього . Якщо це допомагає, я також знаю значення ймовірності журналу на точку даних (ця інформація допомагає певним методам, таким як WAIC та PSIS-LOO).log f ( x | θ ) log f ( θ ) log f ( x i | θ )θlogf(x|θ)logf(θ)журналf(хi|θ)

Я хочу отримати (грубу) оцінку граничної ймовірності, лише із наявними у мене вибірками та, можливо, декількома іншими оцінками функцій (але не переставляючи спеціальну MCMC).

Перш за все, давайте очистимо таблицю. Усі ми знаємо, що гармонійний оцінювач - це найгірший оцінювач коли-небудь . Перейдемо далі. Якщо ви робите вибірки Гіббса з пріорами та плакаторами у закритому вигляді, ви можете скористатися методом Чіба ; але я не впевнений, як узагальнити поза цими випадками. Є також методи, які вимагають від вас змінити процедуру вибірки (наприклад, через загартовані плакати ), але мене тут це не цікавить.

Підхід, про який я думаю, складається з наближення базового розподілу до параметричної (або непараметричної) форми , а потім з'ясування константи нормалізації як задачі оптимізації 1-D (тобто що мінімізує деяку помилку між і , оціненими на вибірках). У найпростішому випадку, припустимо, що задня частина є приблизно багатоваріантною нормою, я можу помістити як багатоваріантну нормальну і отримати щось подібне до наближення Лапласа (можливо, я хотів би використати кілька додаткових оцінок функції для уточнення позиції режим). Однак я міг би використовувати якZ Z Z g ( θ ) f ( x | θ ) f ( θ ) g ( θ ) g ( θ )g(θ)ZZZg(θ)f(x|θ)f(θ)g(θ)g(θ)більш гнучка сім'я, така як варіаційна суміш багатоваріантних розподілів.t

Я розумію, що цей метод працює лише у тому випадку, якщо є розумним наближенням до , але будь-яка причина чи застережлива розповідь про те, чому було б дуже нерозумно Зроби це? Будь-яке читання, яке б ви порекомендували?f ( x | θ ) f ( θ )Zг(θ)f(х|θ)f(θ)

Повністю непараметричний підхід використовує деяке непараметричне сімейство, наприклад Гауссовий процес (GP), для наближення (або якесь інше нелінійне перетворення його, наприклад як квадратний корінь), а байєсівська квадратура неявно інтегрується над базовою ціллю (див. тут і тут ). Це здається цікавим альтернативним підходом, але аналогічним за духом (також зауважте, що лікарі загальної практики були б непростими в моєму випадку).журналf(х|θ)+журналf(θ)


6
Думаю, Чіб, С. та Єлязков, І. 2001 р. "Маргінальна ймовірність з Метрополісу - вихід Гастінгса" узагальнюється до нормальних результатів MCMC - було б цікаво почути досвід такого підходу. Що стосується лікаря загальної практики - в основному це зводиться до емуляції задньої частини, що ви також можете врахувати для інших проблем. Я думаю, проблема полягає в тому, що ви ніколи не впевнені в якості наближення. Мені також цікаво, чи зразок MCMC ідеально підходить для моделі GP, чи варто більше інвестувати в хвости.
Флоріан Хартіг

2
(+1) Дякую за довідку, виглядає на місці - я перевірю це. Я погоджуюся з тим, що всі підходи, засновані на моделі, можуть бути проблематичними (добре з байєсівською квадратурою полягає в тому, що ви отримуєте оцінку невизначеності, хоча не впевнені, наскільки це калібровано). На даний момент моя скромна мета - зробити щось, що є "кращим, ніж наближення Лапласа".
lacerbi

Відповіді:


26

На жаль, розширення Chib and Jeliazkov (2001), на жаль, стає швидко дорогим або дуже мінливим, що є причиною того, що він не так сильно використовується поза випадками відбору проб Гіббса.

Хоча існує багато способів і підходів до постійної нормировке завдання оцінювання (як показані на досить різноманітних переговорах в Оцінюючи Constant семінару ми провели на минулому тижні в Університеті Уоріка, доступні слайди там ), деякі рішення дійсно використовувати прямий вихід MCMC .Z

  1. Як ви вже згадували, оцінка гармонічного середнього рівня Ньютона та Рафті (1994) майже незмінно бідна, оскільки має нескінченну дисперсію. Однак є способи уникнути прокляття нескінченної дисперсії, використовуючи замість цього кінцеву ціль підтримки в середній гармонійній тотожності , вибравшиαяк показник області HPD для задньої частини. Це забезпечує кінцеву дисперсію, видаляючи хвости в гармонійному середньому. (Докладні відомості можна знайти встатті, яку я писав з Дарреном Врайте,і вглаві про нормалізацію констант,написаної з Жаном-Мішелем Маріном.) Коротше кажучи, метод переробляє вихід MCMCθ1,,θMшляхом ідентифікаціїβ( 20% кажуть) найбільші значення ціліπ(θ)f(x|θ)і створенняα

    α(θ)π(θ)f(x|θ)dπ(θ|x)=1Z
    αθ1,,θMβπ(θ)f(x|θ)αяк рівномірний над об'єднанням куль з центром в тій величині щільності (HPD) моделювання і з радіусом р , тобто оцінка константи нормалізує Z задається Z - 1 = 1θi0ρZ якщоd- розмірністьθ(виправлення застосовуються для кульок, що перетинаються), а якщоρдосить малий, щоб кулі ніколи не перетиналися (мається на увазі, що в кращому випадку лише один показник на кулі - це відрізняється від нуля). ПоясненнязнаменникаαM2полягає в тому, що це подвійна сумаβM2доданків: 1
    Z^1=1βM2m=1Mdouble sum overβM ball centres θi0and M simulations θmI(0,ρ)(mini||θmθi0||){π(θm)f(x|θm)}1/πd/2ρdΓ(d/2+1)1volume of ball with radius ρβMα(θm)π(θm)f(x|θm)
    dθραM2βM2 з кожним членом уθm, щоінтегрується вZ-1.
    1βMi=1βM1Mm=1MU(θi0,ρ)(θm)same as with min×1π(θm)f(x|θm)
    θmZ1
  2. Інший підхід - перетворити нормалізуючу константу в параметр. Це звучить як статистична єресь, однак доповідь Ґуттмана та Хеварінена (2012) переконала мене у протилежному. Не надто надто детально описуючись у них, чітка ідея полягає в тому, щоб перетворити спостережувану ймовірність n i = 1 f ( x i | θ ) - n log exp f ( x | θ ) d x у спільну вірогідність журналу n i = 1 [ fZ

    i=1nf(xi|θ)nlogexpf(x|θ)dx
    що є ймовірністю журналу процесу точки Пуассона з функцією інтенсивності exp { f ( x | θ ) + ν + журнал n }
    i=1n[f(xi|θ)+ν]nexp[f(x|θ)+ν]dx
    exp{f(x|θ)+ν+logn}
    Це альтернативна модель у тому, що початкова ймовірність не є граничною з вищезазначених. Збігаються лише режими, коли умовний режим у ν забезпечує константа нормалізації. На практиці вищевказана ймовірність процесу Пуассона недоступна, і Guttmann та Hyvärinen (2012) пропонують наближення за допомогою логістичної регресії. Щоб ще краще зв'язатись із вашим питанням, оцінка Гейєра - це MLE, отже, рішення проблеми максимізації.
  3. π(θ|x)π(θ|x)g(θ)π(θ|x)g(θ)). З регресорами значення обох густин нормалізуються чи ні. Це, можливо, безпосередньо пов'язане з вибіркою мостів Gelman та Meng (1997), яка також переробляє зразки з різних цілей. І більш пізні версії, як MLE MLE.
  4. Інший підхід, який змушує запустити певний пробовідбірник MCMC, - це вкладений вибірки Skilling . Хоча у мене [та інших] є деякі застереження щодо ефективності методу, він досить популярний в астростатистиці та космології з таким програмним забезпеченням, як multinest .
  5. H0:θ=θ0ξπ1(θ)π2(ξ)H0 against the alternative writes as
    B01(x)=πθ(θ0|x)π1(θ0)
    where πθ(θ0|x) denotes the marginal posterior density of θ at the specific value θ0. In case the marginal density under the null H0:θ=θ0
    m0(x)=Ξf(x|θ0,ξ)π2(ξ)dξ
    is available in closed form, one can derive the marginal density for the unconstrained model
    ma(x)=Θ×Ξf(x|θ,ξ)π1(θ)π2(ξ)dθdξ
    from the Bayes factor. (This Savage-Dickey representation relies on specific versions of three different densities and so is fraught with danger, not even mentioning the computational challenge of producing the marginal posterior.)

[Here is a set of slides I wrote about estimating normalising constants for a NIPS workshop last December.]


2
(+1) Incredibly rich answer, thank you. This will be useful to me and, I suppose, many other people. It will take me some time to have a look at the various approaches, and then I might come back with specific questions.
lacerbi

2
Starting from point (1)... I read the relevant articles. The "corrected" harmonic mean estimator seems exactly what I was looking for. It's neat and easy to compute given a MCMC output. So... what's the catch? It doesn't look like the method is being widely used, judging from a quick search on Google Scholar. What are its limitations? (besides the need to identify the HPD regions, which I imagine might become an issue for very complicated posteriors in high dimension). I am definitely going to give it a try -- but I wonder if there is something I need to be wary of.
lacerbi

2
I added a few more details: the issue in implementing the HPD uniform is to figure out a proper compact approximation for the HPD region. The convex hull of points with high posterior values is (NP?) hard to determine while balls centred at those points may intersect, which creates a secondary normalising constant problem.
Xi'an

2
@Xi'an : very helpful, thanks! Can I ask: of all the mentioned approaches, what would currently be your recommendation if one looks for a general approach that tends to work out of the box (i.e. no tuning / checking required from the user)? I would be especially interested in the case of models with a low (< 50) number of parameters, non-normal posteriors, and strong correlations between parameters.
Florian Hartig

1
@FlorianHartig: the fact that a generic software like BUGS does not return a generic estimate of Z is sort of revealing the extent of the problem. The many solutions that one can find in the specialised literature have not produced a consensus estimate. Hence, my recommendation would be to opt for Geyer's logistic regression solution, which is somewhat insensitive to dimension.
Xi'an
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.