Чи реалізований пробовідбірник Монте-Карло / MCMC, який може мати справу з ізольованими локальними максимумами заднього розподілу?

Наразі я використовую байєсівський підхід для оцінки параметрів для моделі, що складається з декількох ОР. Оскільки у мене є 15 параметрів для оцінювання, мій пробний простір є 15-мірним, і мій пошук заднього розподілу, здається, має багато локальних максимумів, дуже відокремлених великими регіонами з дуже низькою ймовірністю.

Це призводить до проблем із змішуванням моїх ланцюгів в Монте-Карло, тому що малоймовірно, що один ланцюг «вистрибне» з одного локального максимуму і випадково вдарить про один з інших максимумів.

Здається, що в цій галузі проводиться багато досліджень, оскільки в них легко знайти документи, що займаються цією проблемою (див. Нижче), але знайти реальну реалізацію важко. Я знайшов лише пакети, що стосуються молекулярної динаміки, але не байєсівські умовиводи. Чи є реалізація (MC) пробовідбірників MC, які здатні вирішувати окремі локальні максимуми там?

Я змушений працювати з Matlab, оскільки саме так написана моя модель ODE, тому пропозиції щодо Matlab вітаються ;-). Однак якщо є "додаток-вбивця" на якійсь іншій мові, можливо, я можу переконати свого ІП переключитися ;-).

Зараз я працюю з пробовідбірником із затримкою-відхиленням / адаптивним Монте-Карло, написаним Хааріо, Лайн та ін. , і це також єдиний пробовідбірник, який я міг знайти досі, який є більш досконалим, ніж стандартний алгоритм Metropolis-Hastings

Помітні підходи:

EDIT Оновлено 2017-березня-07, про що я навчився тим часом

Кілька подібних ланцюгів з різними вихідними точками

Між ланцюгова адаптація. Використовуйте емпіричну матрицю коваріації об'єднаних зразків, згенерованих декількома незалежними ланцюгами, для оновлення матриць коваріації розподілу пропозицій ланцюга. (1)

Кілька ланцюгів з різним загартуванням

Загартування: Якась "температура", здається, змінює задній пейзаж, роблячи змішування ланцюгів більш імовірним. (Я ще не дуже занурився в це) (1) Метою загартовування є вирівнювання (високомірного) ймовірного пейзажу, утвореного заднім розподілом ймовірностей. Зазвичай це здійснюється шляхом прийняття задньої ймовірності до сили , де задній пейзаж вирівняний для (3, с.298). Це означає, що замість обчислення задньої ймовірності стану за даними розраховується загальна ймовірність задньої $1/T$ $T>1$ $p(\theta\mid D)$ $\theta$ $D$

p (θ ∣ D)^{1 / T} \propto {(p (D ∣ θ) \cdot p (θ))}^{1 / T}

$p(\theta\mid D)^{1/T} \propto \left( p(D\mid\theta)\cdot p(\theta)\right)^{1/T}$

Чим вибирається вища , тим плоскішими і ширшими вершинами стають пейзажі ймовірності. Тому більш високі значення призводять до більшої ймовірності переключення пробовідбірника з одного локального максимуму на інший. Однак - це не задній розподіл, який шукається, якщо . Тому ланцюжок зразків такого розподілу необхідно використовувати для того, щоб потім можна було відібрати вибірку з . $T$ $T$ $p(\theta\mid D)^{1/T}$ $T\neq1$ $p(\theta\mid D)$

Зразки з оригінального, беззаперечного заднього розподілу, надані зразками із загартованої версії цього розподілу, можуть бути отримані кількома методами:

Метрополіс в поєднання MCMC запускати кілька ланцюгів одночасно, кожен з яких має різне , але постійне значення для . Переключіть стани двох ланцюгів імовірнісно. Використовуйте лише зразки з ланцюга з для нижчих оцінок; інші ланцюги просто переконайтеся, що всі вершини відбираються. Реф. (4) має паралельний алгоритм і цитує статтю конференції та підручник для ідеї (5,6) $T$ $T=1$
MCMC для малого світу Пробовідбірник перемикається між двома пропозиціями. Найчастіше використовується розподіл пропозицій з невеликою дисперсією, рідко використовується пропозиція з великою дисперсією. Вибір між цими двома пропозиціями стохастичний. Пропозиції з великою дисперсією також можна черпати з іншого ланцюга, який робить дуже великі стрибки, грубо відбираючи пробний простір, наскільки це можливо. (2,7)

Гамільтонський Монте-Карло (HMC)

Я мало що про це знаю, але пробовідбірник NUTS від JAGS, схоже, використовує це. Див. (8). Олексій Рогожников створив наочний посібник з даної теми.

Список літератури:

(1) Craiu et al., 2009: Вчіться у вашого сусіда: паралельно-ланцюговий та регіональний адаптивний MCMC. J Am Stat Assoc 104: 488, стор 1454-1466. http://www.jstor.org/stable/40592353

(2) Гуам та ін., 2012: MCMC малого світу з загартовуванням: Ергоцитність та спектральний розрив. https://arxiv.org/abs/1211.4675 ( лише в arXiv )

(3): Брукс та ін. (2011). Довідник ланцюга Маркова Монте-Карло. Преса CRC.

(4): Altekar et al. (2004): Паралельний Метрополіс з'єднав Марківський ланцюг Монте-Карло для байєсівського філогенетичного умовиводу. Біоінформатика 20 (3) 2004, с. 407–415, http://dx.doi.org/10.1093/bioinformatics/btg427

(5): Гейєр CJ (1991) Маркова ланцюг Монте-Карло максимальна ймовірність. В: Кераміди (ред.), Обчислювальна наука та статистика: Матеріали 23-го симпозіуму з інтерфейсу . Інтерфейсний фонд, станція Fairfax, стор. 156–163.

(6): Gilks WR і Roberts GO (1996). Стратегії вдосконалення MCMC. У: Гілкс В.Р., Річардсон С. та Шпігельхальтер (редактори) Марківський ланцюг Монте-Карло на практиці . Chapman & Hall, с. 89–114.

(7): Гуан Ю та ін. Марківська ланцюг Монте-Карло в маленьких світах. Статистика та обчислювальна техніка (2006) 16 (2), с. 193-202. http://dx.doi.org/10.1007/s11222-006-6966-6

(8): Гофман М і Гельман А (2014): Пробник без повороту: адаптивне встановлення довжин шляху в гамільтоніані Монте-Карло. Журнал досліджень машинного навчання , 15, стор 1351-1381. https://arxiv.org/abs/1111.4246

— акраф
джерело

Жодна з вищеописаних стратегій не є особливо придатною для множинних оптимізмів.

Кращий вибір - це диференціальна еволюція MCMC та похідні MCMC, такі як DREAM. Ці алгоритми працюють з декількома ланцюгами MCMC, які змішуються для створення пропозицій. Якщо у вас є хоча б один ланцюжок в кожній оптимі, вони зможуть ефективно перестрибувати між оптимою. Реалізація в R доступна тут https://cran.r-project.org/web/packages/BayesianTools/index.html

— Флоріан Хартіг
джерело