моделювання випадкових вибірок із заданим MLE


17

Це перехресне підтверджене запитання про моделювання вибірки, що обумовлює наявність фіксованої суми, нагадало мені проблему, яку поставив мені Джордж Казелла .

f(x|θ)(X1,,Xn)θ

θ^(x1,,xn)=argmini=1nlogf(xi|θ)
θ(X1,,Xn)θ^(X1,,Xn)

Наприклад, візьміть розподіл з параметром розташування , щільність якого Якщо як ми можемо імітувати умовно на ? У цьому прикладі розподіл не має виразу закритої форми.T5μ

f(x|μ)=Γ(3)Γ(1/2)Γ(5/2)[1+(xμ)2/5]3
(X1,,Xn)iidf(x|μ)
(X1,,Xn)μ^(X1,,Xn)=μ0T5μ^(X1,,Xn)

Відповіді:


20

Одним із варіантів було б використання обмеженого варіанту HMC, як описано у сімействі методів MCMC на нечітко визначених колективах Brubaker et al. (1). Це вимагає, щоб ми могли висловити умову, що максимальна ймовірність оцінки параметра розташування дорівнює деякому фіксованому μ0 як деяке неявно визначене (і диференційоване) голономічне обмеження c({xi}i=1N)=0 . Тоді ми можемо імітувати обмежену динаміку гамільтонів, підпорядковуючись цьому обмеженню, і приймати / відхиляти на етапі «Метрополіс-Гастінгс», як у стандартному HMC.

Негативна ймовірність лога - яка має часткові похідні першого та другого порядку щодо параметра розташуванняμL

L=i=1N[logf(xi|μ)]=3i=1N[log(1+(xiμ)25)]+constant
μ Максимальну оцінку ймовірностіμ0потім неявно визначають як рішення c=Ni=1[2(μ0-xi)
Lμ=3i=1N[2(μxi)5+(μxi)2]and2Lμ2=6i=1N[5(μxi)2(5+(μxi)2)2].
μ0
c=i=1N[2(μ0xi)5+(μ0xi)2]=0subject toi=1N[5(μ0xi)2(5+(μ0xi)2)2]>0.

Я не впевнений, чи є якісь результати, які дозволять припустити, що для даного { x i } N i = 1 буде унікальний MLE для - щільність не є увігнутою в мк, тому це не здається тривіальним для цього. Якщо є єдине унікальне рішення, вищевказане неявно визначає зв'язане N - 1 розмірне колектор, вбудоване в R N, що відповідає набору { x i } N i = 1 з MLE для μ, що дорівнює μ 0μ{xi}i=1NμN1RN{xi}i=1Nμμ0. Якщо існує кілька рішень, то колектор може складатися з декількох непоєднаних компонентів, деякі з яких можуть відповідати мінімумам у функції ймовірності. У цьому випадку нам знадобиться мати додатковий механізм для переміщення між непоєднаними компонентами (оскільки модельована динаміка, як правило, залишатиметься обмеженою однією складовою), і перевірити умову другого порядку та відхилити переміщення, якщо воно відповідає переміщенню на мінімум, ймовірно.

Якщо ми позначаємо для позначення вектора [ x 1x N ] T і вводимо кон'югований стан імпульсу p з масовою матрицею M і множником Лагранжа λ для скалярного обмеження c ( x ), то рішення системи ODE d xx[x1xN]TpMλc(x) заданій початковій умовіx(0)=x0,p(0)=p0приc(x0)=0іc

dxdt=M1p,dpdt=Lxλcxsubject toc(x)=0andcxM1p=0
x(0)=x0, p(0)=p0c(x0)=0, визначає обмежену гамільтонову динаміку, яка залишається обмеженою в колекторі обмежень, є оборотною в часі і точно зберігає гамільтонівський і об'ємний елемент об'єму. Якщо ми використовуємо симплектичний інтегратор для обмежених гамільтонових систем, таких як SHAKE (2) або RATTLE (3), які точно підтримують обмеження на кожному кроці часу, вирішуючи для множника Лагранжа, ми можемо змоделювати точний динамічнийLдискретний часовий крокδtвід деяке початкове обмеження, що задовольняєх,cx|x0M1p0=0Lδt і прийняти запропоновану нову пару стану x ,x,px,p
min{1,exp[L(x)L(x)+12pTM1p12pTM1p]}.
cxM1p=0) then modulo the possiblity of there being multiple non-connected constraint manifold components, the overall MCMC dynamic should be ergodic and the configuration state samples x will coverge in distribution to the target density restricted to the constraint manifold.

To see how constrained HMC performed for the case here I ran the geodesic integrator based constrained HMC implementation described in (4) and available on Github here (full disclosure: I am an author of (4) and owner of the Github repository), which uses a variation of the 'geodesic-BAOAB' integrator scheme proposed in (5) without the stochastic Ornstein-Uhlenbeck step. In my experience this geodesic integration scheme is generally a bit easier to tune than the RATTLE scheme used in (1) due the extra flexibility of using multiple smaller inner steps for the geodesic motion on the constraint manifold. An IPython notebook generating the results is available here.

I used N=3, μ=1 and μ0=2. An initial x corresponding to a MLE of μ0 was found by Newton's method (with the second order derivative checked to ensure a maxima of the likelihood was found). I ran a constrained dynamic with δt=0.5, L=5 interleaved with full momentum refreshals for 1000 updates. The plot below shows the resulting traces on the three x components

Trace plots for 3D example

and the corresponding values of the first and second order derivatives of the negative log-likelihood are shown below

Log-likelihood derivative trace plots

from which it can be seen that we are at a maximum of the log-likelihood for all sampled x. Although it is not readily apparent from the individual trace plots, the sampled x lie on a 2D non-linear manifold embedded in R3 - the animation below shows the samples in 3D

3D visualisation of samples confined to 2D manifold

Depending on the interpretation of the constraint it may also be necessary to adjust the target density by some Jacobian factor as described in (4). In particular if we want results consistent with the ϵ0 limit of using an ABC like approach to approximately maintain the constraint by proposing unconstrained moves in RN and accepting if |c(x)|<ϵ, then we need to multiply the target density by cxTcx. In the above example I did not include this adjustment so the samples are from the original target density restricted to the constraint manifold.

References

  1. M. A. Brubaker, M. Salzmann, and R. Urtasun. A family of MCMC methods on implicitly defined manifolds. In Proceedings of the 15th International Conference on Artificial Intelligence and Statistics, 2012.
    http://www.cs.toronto.edu/~mbrubake/projects/AISTATS12.pdf

  2. J.-P. Ryckaert, G. Ciccotti, and H. J. Berendsen. Numerical integration of the Cartesian equations of motion of a system with constraints: molecular dynamics of n-alkanes. Journal of Computational Physics, 1977.
    http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.399.6868

  3. H. C. Andersen. RATTLE: A "velocity" version of the SHAKE algorithm for molecular dynamics calculations. Journal of Computational Physics, 1983.
    http://www.sciencedirect.com/science/article/pii/0021999183900141

  4. M. M. Graham and A. J. Storkey. Asymptotically exact inference in likelihood-free models. arXiv pre-print arXiv:1605.07826v3, 2016.
    https://arxiv.org/abs/1605.07826

  5. B. Leimkuhler and C. Matthews. Efficient molecular dynamics using geodesic integration and solvent–solute splitting. Proc. R. Soc. A. Vol. 472. No. 2189. The Royal Society, 2016.
    http://rspa.royalsocietypublishing.org/content/472/2189/20160138.abstract


3
Brilliant and opening new and bright perspectives! Thank you.
Xi'an
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.