Чи реалізований пробовідбірник Монте-Карло / MCMC, який може мати справу з ізольованими локальними максимумами заднього розподілу?


10

Наразі я використовую байєсівський підхід для оцінки параметрів для моделі, що складається з декількох ОР. Оскільки у мене є 15 параметрів для оцінювання, мій пробний простір є 15-мірним, і мій пошук заднього розподілу, здається, має багато локальних максимумів, дуже відокремлених великими регіонами з дуже низькою ймовірністю.

Це призводить до проблем із змішуванням моїх ланцюгів в Монте-Карло, тому що малоймовірно, що один ланцюг «вистрибне» з одного локального максимуму і випадково вдарить про один з інших максимумів.

Здається, що в цій галузі проводиться багато досліджень, оскільки в них легко знайти документи, що займаються цією проблемою (див. Нижче), але знайти реальну реалізацію важко. Я знайшов лише пакети, що стосуються молекулярної динаміки, але не байєсівські умовиводи. Чи є реалізація (MC) пробовідбірників MC, які здатні вирішувати окремі локальні максимуми там?

Я змушений працювати з Matlab, оскільки саме так написана моя модель ODE, тому пропозиції щодо Matlab вітаються ;-). Однак якщо є "додаток-вбивця" на якійсь іншій мові, можливо, я можу переконати свого ІП переключитися ;-).

Зараз я працюю з пробовідбірником із затримкою-відхиленням / адаптивним Монте-Карло, написаним Хааріо, Лайн та ін. , і це також єдиний пробовідбірник, який я міг знайти досі, який є більш досконалим, ніж стандартний алгоритм Metropolis-Hastings


Помітні підходи:

EDIT Оновлено 2017-березня-07, про що я навчився тим часом

Кілька подібних ланцюгів з різними вихідними точками

Між ланцюгова адаптація. Використовуйте емпіричну матрицю коваріації об'єднаних зразків, згенерованих декількома незалежними ланцюгами, для оновлення матриць коваріації розподілу пропозицій ланцюга. (1)

Кілька ланцюгів з різним загартуванням

Загартування: Якась "температура", здається, змінює задній пейзаж, роблячи змішування ланцюгів більш імовірним. (Я ще не дуже занурився в це) (1) Метою загартовування є вирівнювання (високомірного) ймовірного пейзажу, утвореного заднім розподілом ймовірностей. Зазвичай це здійснюється шляхом прийняття задньої ймовірності до сили , де задній пейзаж вирівняний для (3, с.298). Це означає, що замість обчислення задньої ймовірності стану за даними розраховується загальна ймовірність задньої1/TT>1p(θD)θD

p(θD)1/T(p(Dθ)p(θ))1/T

Чим вибирається вища , тим плоскішими і ширшими вершинами стають пейзажі ймовірності. Тому більш високі значення призводять до більшої ймовірності переключення пробовідбірника з одного локального максимуму на інший. Однак - це не задній розподіл, який шукається, якщо . Тому ланцюжок зразків такого розподілу необхідно використовувати для того, щоб потім можна було відібрати вибірку з .TTp(θD)1/TT1p(θD)

Зразки з оригінального, беззаперечного заднього розподілу, надані зразками із загартованої версії цього розподілу, можуть бути отримані кількома методами:

  • Метрополіс в поєднання MCMC запускати кілька ланцюгів одночасно, кожен з яких має різне , але постійне значення для . Переключіть стани двох ланцюгів імовірнісно. Використовуйте лише зразки з ланцюга з для нижчих оцінок; інші ланцюги просто переконайтеся, що всі вершини відбираються. Реф. (4) має паралельний алгоритм і цитує статтю конференції та підручник для ідеї (5,6)TT=1

  • MCMC для малого світу Пробовідбірник перемикається між двома пропозиціями. Найчастіше використовується розподіл пропозицій з невеликою дисперсією, рідко використовується пропозиція з великою дисперсією. Вибір між цими двома пропозиціями стохастичний. Пропозиції з великою дисперсією також можна черпати з іншого ланцюга, який робить дуже великі стрибки, грубо відбираючи пробний простір, наскільки це можливо. (2,7)

Гамільтонський Монте-Карло (HMC)

Я мало що про це знаю, але пробовідбірник NUTS від JAGS, схоже, використовує це. Див. (8). Олексій Рогожников створив наочний посібник з даної теми.


Список літератури:

(1) Craiu et al., 2009: Вчіться у вашого сусіда: паралельно-ланцюговий та регіональний адаптивний MCMC. J Am Stat Assoc 104: 488, стор 1454-1466. http://www.jstor.org/stable/40592353

(2) Гуам та ін., 2012: MCMC малого світу з загартовуванням: Ергоцитність та спектральний розрив. https://arxiv.org/abs/1211.4675 ( лише в arXiv )

(3): Брукс та ін. (2011). Довідник ланцюга Маркова Монте-Карло. Преса CRC.

(4): Altekar et al. (2004): Паралельний Метрополіс з'єднав Марківський ланцюг Монте-Карло для байєсівського філогенетичного умовиводу. Біоінформатика 20 (3) 2004, с. 407–415, http://dx.doi.org/10.1093/bioinformatics/btg427

(5): Гейєр CJ (1991) Маркова ланцюг Монте-Карло максимальна ймовірність. В: Кераміди (ред.), Обчислювальна наука та статистика: Матеріали 23-го симпозіуму з інтерфейсу . Інтерфейсний фонд, станція Fairfax, стор. 156–163.

(6): Gilks ​​WR і Roberts GO (1996). Стратегії вдосконалення MCMC. У: Гілкс В.Р., Річардсон С. та Шпігельхальтер (редактори) Марківський ланцюг Монте-Карло на практиці . Chapman & Hall, с. 89–114.

(7): Гуан Ю та ін. Марківська ланцюг Монте-Карло в маленьких світах. Статистика та обчислювальна техніка (2006) 16 (2), с. 193-202. http://dx.doi.org/10.1007/s11222-006-6966-6

(8): Гофман М і Гельман А (2014): Пробник без повороту: адаптивне встановлення довжин шляху в гамільтоніані Монте-Карло. Журнал досліджень машинного навчання , 15, стор 1351-1381. https://arxiv.org/abs/1111.4246

Відповіді:


1

Жодна з вищеописаних стратегій не є особливо придатною для множинних оптимізмів.

Кращий вибір - це диференціальна еволюція MCMC та похідні MCMC, такі як DREAM. Ці алгоритми працюють з декількома ланцюгами MCMC, які змішуються для створення пропозицій. Якщо у вас є хоча б один ланцюжок в кожній оптимі, вони зможуть ефективно перестрибувати між оптимою. Реалізація в R доступна тут https://cran.r-project.org/web/packages/BayesianTools/index.html

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.