Чи підходять методи, засновані на MCMC, коли доступна оцінка максимального a-posteriori?


13

Я помічав, що у багатьох практичних програмах методики на основі MCMC використовуються для оцінки параметра, навіть якщо задній є аналітичним (наприклад, тому, що пріори були сполученими). Для мене має сенс використовувати MAP-оцінки, а не оцінки на основі MCMC. Чи може хтось зазначити, чому MCMC все ще є відповідним методом за наявності аналітичної задньої частини?


2
Чи можете ви навести приклад цього на практиці? Зауважте, що існує відмінність від попереднього сполучуваного та умовно сполученого . У багатьох програмах відбору проб Гіббса обрані апріори є умовно сполученими, але сам попередній варіант не є кон'югатом; наприклад, розглянемо приховане розподілення Діріхле.
хлопець

4
Незрозуміло, що MAP також має відношення до цього. Оцінювач Байєса - це заднє середнє, а не заднє. Навіть коли апріори не є сполученими, часто можна зробити певну оптимізацію, щоб отримати оцінювач MAP - STAN робить це для більш-менш будь-якого попереднього. Сенс роботи MCMC полягає в оцінці заднього розподілу, в якому є набагато більше інформації, ніж просто MAP-оцінка.
хлопець

Відповіді:


12

У цьому випадку не потрібно використовувати MCMC: Ланцюг Маркова Монте-Карло (MCMC) - метод, який використовується для отримання значень з розподілу. Він виробляє ланцюг Маркова з автокорельованими значеннями зі стаціонарним розподілом, рівним цільовому розподілу. Цей метод все ще працюватиме, щоб отримати те, що ви хочете, навіть у тих випадках, коли цільовий розподіл має аналітичну форму. Однак існують більш прості та менш обчислювальні методи, які працюють у таких випадках, коли ви маєте справу з задньою частиною, яка має гарну аналітичну форму.

У випадку, коли задній розподіл має доступну аналітичну форму, можна отримати оцінки параметрів (наприклад, MAP) шляхом оптимізації з цього розподілу, використовуючи стандартні методи обчислення. Якщо розподіл цілі досить простий, ви можете отримати рішення закритої форми для оцінювача параметрів, але навіть якщо це не так, зазвичай можна використовувати прості ітеративні методи (наприклад, Ньютон-Рафсон, спуск градієнта тощо), щоб знайти оптимізація оцінки параметрів для будь-яких заданих вхідних даних. Якщо у вас є аналітична форма для кількісної функції цільового розподілу, і вам потрібно генерувати значення з розподілу, це можна зробити за допомогою вибірки зворотного перетворення, яка менш обчислювальна, ніж MCMC, і дозволяє генерувати значення IID, а не значення зі складними схемами автокореляції.

З огляду на це, якщо ви програмували з нуля, то, мабуть, немає причин, щоб ви використовували MCMC у тому випадку, коли цільовий розподіл має доступну аналітичну форму. Єдиною причиною ви можете це зробити, якщо у вас є загальний алгоритм для MCMC, вже написаний, який можна реалізувати з мінімальними зусиллями, і ви вирішили, що ефективність використання аналітичної форми переважає зусилля зробити необхідну математику. У певних практичних контекстах ви матимете справу з проблемами, які, як правило, не можна вирішити, де алгоритми MCMC вже налаштовані і можуть бути реалізовані з мінімальними зусиллями (наприклад, якщо ви робите аналіз даних уRStan). У цих випадках може бути найпростіше запустити існуючі методи MCMC, а не виводити аналітичні рішення проблем, хоча останні, звичайно, можуть бути використані як перевірка вашої роботи.


10

π(θ)˜ π ( ) π ( )

minδΘL(θ,δ)π~(θ)f(x|θ)dθ
π~()π()

Коли нормалізуюча константа недоступна,

π~(θ)dθ
знаходження заднього середнього або середнього або навіть режиму [який не вимагає знати константу], найчастіше продовжується через алгоритм MCMC. Наприклад, якщо мені задана щільність суглоба , коли , натхненний зв'язкою Алі-Михайло-Хак : це може бути належним чином нормалізована (і насправді), але умовне математичне очікування з з урахуванням при цій щільності приx,y(0,1)Φ - 1 ( X ) Y = y Φ ( . )

fθ(x,y)=1+θ[(1+x)(1+y)3]+θ2(1x)(1y))[1θ(1x)(1y)]3θ(1,1)
Φ1(X)Y=yΦ(.)є нормальним cdf, недоступний у закритому вигляді. Це, однак, питання першочергового .

Зауважимо також, що максимальний апостеріорний оцінювач - не самий природний оцінювач у байєсівській обстановці, оскільки він не відповідає функції втрат і що представлення закритої форми щільності, навіть до постійної, не робить знаходження MAP обов'язково легко. Або використовуючи відповідний MAP.


2

Коли я читаю, це питання задає два дещо ортогональних питання. Один повинен використовувати один MAP-оцінювач над задніми засобами, а другий - чи слід MCMC, якщо задній має аналітичну форму.

Що стосується оцінок MAP щодо задніх засобів, то з теоретичної точки зору, як правило, переважні задні засоби, як зазначає @Xian у своїй відповіді. Реальна перевага оцінювачів MAP полягає в тому, що, особливо у більш типовому випадку, коли задній не знаходиться в закритому вигляді, їх можна обчислити набагато швидше (тобто на кілька порядків), ніж оцінку заднього середнього. Якщо задня частина приблизно симетрична (що часто трапляється при багатьох проблемах з великими розмірами вибірки), то оцінка ПДЧ повинна бути дуже близькою до задньої середньої. Отже, привабливість MAP насправді полягає в тому, що це може бути дуже дешевим наближенням заднього середнього.

Зауважимо, що знання константи нормалізації не допомагає нам знайти задній режим, тому рішення закритої форми для заднього технічно не допомагає нам знайти оцінку MAP, поза тим випадком, коли ми розпізнаємо задній як певний розподіл, для якого ми знаємо, що це режим.

Що стосується другого питання, якщо у кого є закрита форма заднього розподілу, загалом кажучи, немає підстав використовувати алгоритми MCMC. Теоретично, якщо у вас було рішення закритої форми для заднього розподілу, але у вас не було закритої форми для середньої функції певної функції і ви не могли приймати малюнки безпосередньо з цього розподілу закритих форм, то можна звернутися до алгоритмів MCMC. Але я не знаю жодних випадків цієї ситуації.


1

Я заперечую, що методи MCMC не обов'язково є невідповідними , навіть коли існують рішення закритої форми. Очевидно, що приємно, коли існує аналітичне рішення: вони, як правило, швидкі, ви уникаєте побоювань щодо конвергенції (тощо).

З іншого боку, важлива також послідовність. Перехід від техніки до техніки ускладнює вашу презентацію: в кращому випадку, це сторонні деталі, які можуть бентежити або відволікати аудиторію від ваших суттєвих результатів, а в гіршому випадку це може виглядати як спроба змінити результати. Якби у мене було кілька моделей, лише деякі з яких допускають рішення закритої форми, я б настійно розглядав можливість їх запуску через один і той же конвеєр MCMC, навіть якщо це не було б вкрай необхідним.

Я підозрюю, що плюс інерція ("у нас цей сценарій працює") припадає на більшість того, що ви бачите.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.