Чи можу я виконати вибірку великого набору даних під час кожної ітерації MCMC?


8

Проблема: Я хочу виконати вибірку Gibbs, щоб зробити деякий задній для великого набору даних. На жаль, моя модель не дуже проста, і тому вибірки є надто повільними. Я б розглядав варіативні чи паралельні підходи, але перш ніж піти так далеко ...

Запитання: Я хотів би знати, чи можу я випадково вибирати (із заміною) з мого набору даних під час кожної ітерації Гіббса, щоб у мене було менше примірників, на яких слід вчитися на кожному кроці.

Моя інтуїція полягає в тому, що навіть якщо я зміню зразки, я б не змінював щільності ймовірності, і тому зразок Гіббса не повинен помічати хитрість. Чи правий я? Чи є якісь посилання людей, які це зробили?


1
Як осторонь: інша ідея полягала б у тому, щоб зробити кілька аналізів на випадкових підпроборах великого набору даних. Таким чином ви також можете перехресно підтвердити.
домисли

2
Я не можу відповісти на ваше точне запитання жодним авторитетом (хоча я підозрюю, що ви б тільки збільшували помилку наближення, що виникає з Монте-Карло), сумна правда полягає в тому, що це лише прикрий аспект аналізу Bayesian MCMC: вони обчислюються дорого. Коментар @conjectures - це чудова ідея, але насправді не стоїть в основі проблеми: занадто дорого, щоб намалювати всі ці зразки для кожної людини. Моя рекомендація - написати власний код C для важкої роботи (Rcpp в R, Cython в Python тощо), а також паралельно (коли немає залежностей від галузей).

1
@conjectures Це звучить як сумка маленьких завантажувальних приладів Майкла Джордана.
jaradniemi

1
Я б запропонував змінити ваш пробовідбірник, щоб взагалі уникнути прихованого збільшення змінної. У вас більше не буде пробовідбірника Гіббса, але алгоритм Metropolis-Hastings з пропозицією, заснованою на нормальному наближенні до ймовірності, повинен спрацювати чудово. Дивіться розділ 16.4 другого видання Байєсівського аналізу даних.
jaradniemi

6
Це сфера активних досліджень, яку я не знаю досить добре, щоб точно підвести для вас. Див., Наприклад, jmlr.org/proceedings/papers/v32/bardenet14.pdf та arxiv.org/pdf/1304.5299v4.pdf
Andrew M

Відповіді:


1

Щодо стратегій підсистеми: просто, наприклад, розгляньте два спостереження та і подумайте поставити деякі пріори середнього та дисперсія. Нехай , задній, який ми хочемо оцінити, є CO, розглянемо тепер біноміальну змінну . Якщо ми вибрали , якщо обрали , новий задній - деX1N(μ1,σ12)X2N(μ2,σ22)θ=(μ1,μ2,σ12,σ22)

f(θ|X1,X2)f(X1|θ)f(X2|θ)f(θ)
δB(0.5)δ=0X1δ=1X2
f(θ,δ|X1,X2)f(X1,X2|δ,θ)f(θ)f(δ)
f(X1,X2|δ,θ)=f(X1|θ)δf(X2|θ)1δ і . Тепер, якщо ви хочете зробити вибірку з кроком Гіббса, ви повинні обчислити і тому що . Якщо ви в іншому випадку використовуєте Метрополіс Гастінгс, тоді ви пропонуєте новий стан і вам доведеться обчислити лише один між і , той, що пов'язаний із запропонованими станами, але ви повинні обчислити один між іf(δ)=0.5δf(X1|θ)f(X2|θ)P(δ=1)=f(X1|θ)f(X1|θ)+f(X2|θ)δf(X1|θ)f(X2|θ)f(X1|θ)f(X2|θ)навіть для останнього прийнятого стану . Тоді я не впевнений, що столиця дасть вам певну перевагу. Більше того, тут ми розглядаємо двоваріантний процес, але при мультиваріантному процесі відбір проб може бути дуже складним для мегаполісу.δδ
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.