Обмеження MCMC / EM? MCMC над EM?


9

В даний час я вивчаю ієрархічні байєсові моделі за допомогою JAGS від R, а також pymc за допомогою Python ( "Байєсівські методи для хакерів" ).

Я можу отримати певну інтуїцію з цього посту : "ви закінчите купу купу чисел, яка виглядає" так, ніби "вам якимось чином вдалося взяти незалежні вибірки із складного розповсюдження, про яке ви хотіли знати". Це щось на кшталт того, що я можу дати умовну ймовірність, тоді я можу генерувати процес без запам'ятовування на основі умовної ймовірності. Коли я генерую процес досить довго, то ймовірність спільного зближення може збільшитися. І тоді я можу взяти купу чисел у кінці створеної послідовності. Це так само, як я беру незалежні зразки зі складного спільного розподілу. Наприклад, я можу зробити гістограму, і вона може наближати функцію розподілу.

Тоді моя проблема полягає в тому, чи потрібно мені доводити, чи конвергується MCMC для певної моделі? Мене мотивує це знати, тому що я раніше вивчив алгоритм ЕМ для GMM та LDA (графічні моделі). Якщо я можу просто використовувати алгоритм MCMC, не доводячи, чи він конвергується, то це може заощадити набагато більше часу, ніж ЕМ. Оскільки мені доведеться обчислити очікувану функцію ймовірності журналу (доведеться обчислити задню ймовірність), а потім максимізувати очікувану ймовірність журналу. Це, мабуть, громіздкіше, ніж MCMC (мені просто потрібно сформулювати умовну ймовірність).

Мені також цікаво, чи співпадають функції ймовірності та попередній розподіл. Чи означає це, що MCMC повинен сходитися? Мені цікаво про обмеження MCMC та EM.


2
MCMC конвергується як за визначенням. Замість того, щоб довести це, ви діагностуєте конвергенцію, щоб перевірити, чи збіглася ваша модель, наприклад, math.pku.edu.cn/teachers/xirb/Courses/QR2013/ReadingForFinal/… або people.fas.harvard.edu/~plam/teaching/methods / конвергенція /…n
Тім

3
ЕМ швидше, він не байесівський (не всі люблять баєсівську статистику), а в деяких випадках має менше проблем з ідентифікацією (це сходить до єдиного максимального значення, тоді як при підході до MCMC у вас є цілий розподіл, який може бути складнішим, ніж бальна оцінка ) тощо
Тім

2
ЕМ використовується для максимальної вірогідності або максимуму післяорієнтовної оцінки, але спочатку описувався як алгоритм МЛ і зазвичай використовується в підході до МЛ (див. En.wikipedia.org/wiki/… ).
Тім

1
Навіть якщо ви використовуєте EM для оцінки MAP, а не ML, для мене це не байесовское, оскільки воно намагається охарактеризувати задній розподіл, але отримує лише локальний режим його.
Лука

1
Для мене використання ЕМ - не-байесівське, оскільки воно дає точну оцінку ваших параметрів, що цікавлять, і не дає кількісного визначення повного заднього розподілу. І EM, і MCMC можуть мати повну імовірнісну модель з пріорами, прихованими та спостережуваними випадковими змінними, але умовивід є різним. MCMC має на меті охарактеризувати повний задній розподіл, тоді як ЕМ дає не передавати інформацію про повне заднє розподіл. Для мене баєсієць - це той, хто використовує задній розподіл для прийняття рішень. Однак це може бути спрощеним. Я також вивчаю цей матеріал.
Лука

Відповіді:


13

EM - це технологія оптимізації: з урахуванням ймовірності з корисними прихованими змінними він повертає локальний максимум, який може бути глобальним максимумом залежно від вихідного значення.

MCMC - це метод моделювання: з урахуванням ймовірності з прихованими змінними або без них, і попередньо, він виробляє зразок, який приблизно розподіляється від заднього розподілу. Перші значення цього зразка зазвичай залежать від початкового значення, а це означає, що вони часто відкидаються як стадія згоряння (або розминки).

Коли цей зразок використовується для оцінки інтегралів, пов'язаних із задньою розподілом [переважна більшість випадків], властивості конвергенції, по суті, є аналогічними властивостям iid наближення Монте-Карло в силу ергодичної теореми.

Якщо потрібно більше, тобто гарантія, що є зразком із заднього , існують деякі методи оцінки конвергенції, наприклад в пакеті R CODA . Теоретично, інструменти, що забезпечують конвергенцію, імовірно, не досягаються вами. Наприклад, ідеальні методи відбору проб або перемотування .(xt,,xt+T)π(x|D)

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.