Чи можна використовувати алгоритми машинного навчання або глибокого навчання для «покращення» процесу вибірки методу MCMC?

21

На основі мало знань, які я маю щодо методів MCMC (ланцюг Маркова Монте-Карло), я розумію, що відбір проб є важливою частиною вищезгаданої методики. Найпоширенішими методами відбору проб є Гамільтоніан та Метрополіс.

Чи є спосіб використовувати машинне навчання або навіть глибоке навчання для побудови більш ефективного пробника MCMC?

— Джеспар
джерело

5

Не могли б ви вказати, яке саме "вдосконалення" ви маєте на увазі, і як ви бачите роль машинного навчання?

— Тім

2

Зазвичай MCMC зазвичай передбачає оцінку значень за виразами без закритої форми, які є занадто складними для пошуку аналітичних рішень. Можливо, що багатоваріантне кластеризація (або подібні підходи) можна використовувати для оцінки більш простої багатоваріантної щільності, але я б бачив це більше як альтернативу використанню MCMC.

— AdamO

1

@AdamO, чому б не перетворити це на відповідь? Здається, це може бути так добре, як ми можемо потрапити сюди.

— gung - Відновіть Моніку

@Tim Що ж, з того, що я прочитав, MCMC черпає зразки з розподілу, щоб обчислити інфекційні кількості. Алгоритм МЗ випадковим чином вибирає "місця", а потім стверджує, якщо вони прийнятні. Мені було цікаво, чи є альтернативні методи ML. Я знаю, що це звучить невиразно, і прошу вибачення за це, але мені здається, що MCMC є інтригуючим, і я намагаюся влаштуватись на теорію та практичні програми шляхом самостійного вивчення.

— Jespar

1

Пов’язаний arxiv.org/pdf/1506.03338v3.pdf

— Опція

27

Так. На відміну від інших відповідей, "типові" методи машинного навчання, такі як непараметрика та (глибока) нейронна мережа, можуть допомогти створити кращі пробовідбірники MCMC.

Мета MCMC полягає в тому, щоб взяти зразки з (ненормалізованого) розподілу цілей . Отримані зразки використовуються для наближення і здебільшого дозволяють обчислити очікування функцій під (тобто великомірних інтегралів) і, зокрема, властивостей (таких як моменти). $f(x)$ $f$ $f$ $f$

Для вибірки зазвичай потрібна велика кількість оцінок та, можливо, його градієнта, для таких методів, як Гамільтоніан Монте-Карло (HMC). Якщо дорого оцінити або градієнт недоступний, іноді можливо побудувати менш дорогу сурогатну функцію, яка може допомогти керувати вибіркою і оцінюється замість (таким чином, що все ще зберігає властивості MCMC). $f$ $f$ $f$

Наприклад, насіннєвий документ ( Расмуссен 2003 ) пропонує використовувати Гауссові процеси (непараметричне наближення функції) для побудови апроксимації для та виконання HMC на сурогатній функції, лише на етапі прийняття / відхилення HMC на основі . Це зменшує кількість оцінок вихідного та дозволяє виконувати MCMC на pdfs, що в іншому випадку було б занадто дорого оцінювати. $\log f$ $f$ $f$

Ідея використання сурогатів для прискорення MCMC багато досліджувалася за останні кілька років, по суті, намагаючись різними способами побудувати сурогатну функцію та ефективно поєднувати її з різними методами MCMC (і таким чином, щоб зберегти правильність " 'вибірки MCMC'). Зв'язані з вашим запитанням, ці два останні документи використовують сучасні методи машинного навчання - випадкові мережі ( Zhang et al. 2015 ) або адаптивно засвоєні експоненціальні функції ядра ( Strathmann et al. 2015 ) - для побудови сурогатної функції.

HMC - не єдина форма MCMC, яка може отримати вигоду від сурогатів. Наприклад, Nishiara et al. (2014 року) побудувати наближення щільності мішені шляхом підгонки багатоваріантного Стьюдента розподілу в стан мульти-ланцюга ансамблю пробоотборника, і використовувати це , щоб виконати узагальнену форму еліптичної вибірки зрізу . $t$

Це лише приклади. Загалом, для вилучення інформації, яка може підвищити ефективність пробовідбірників MCMC, може бути використана низка різних методик МЛ (переважно в області наближення функції та оцінки щільності) . Їх фактична корисність - наприклад, виміряна кількістю "ефективних незалежних вибірок за секунду" - умовна тим, що є дорогим або дещо важким для обчислення; Крім того, багато з цих методів можуть зажадати налаштування власних чи додаткових знань, обмежуючи їх застосування. $f$

Список літератури:

Расмуссен, Карл Едвард. "Гауссові процеси для прискорення гібридного Монте-Карло для дорогих байесівських інтегралів". Байєська статистика 7. 2003.
Чжан, Ченг, Бабак Шахбаба та Гонкай Чжао. "Прискорення гамільтонівського Монте-Карло з використанням сурогатних функцій із випадковими основами." переддрук arXiv arXiv: 1506.05555 (2015).
Strathmann, Heiko та ін. "Гамільтоніанський Монте-Карло без градієнтів із ефективними сім'ями експоненціалу ядра". Успіхи в нейронних системах обробки інформації. 2015 рік.
Нішіхара, Роберт, Ієн Мюррей та Райан П. Адамс. "Паралельний MCMC з узагальненою вибіркою еліптичного зрізу." Journal of Machine Learning Research 15.1 (2014): 2087-2112.

— лазербі
джерело

2

Я не впевнений, що перераховані вами методи дійсно належать до категорії «методів машинного навчання», а не просто стандартних методів MCMC (хоча це найяскравіші рядки). Єдиним, який остаточно здається, що це метод ML / DL, був 3, який з тих пір видалив "нейронну мережу" з назви (і, здається, в тексті визнає, що використання стандартних методів ML буде дуже надто повільним).

— Кліф АВ

2

t

$t$

1

Дуже дякую @lacerbi. Я радий, що можу використовувати ваші посилання як основу для подальших досліджень.

— Джеспар

6

Метод, який міг би з'єднати ці дві концепції, - це алгоритм багатоваріантної Metropolis Hastings. У цьому випадку ми маємо цільовий розподіл (задній розподіл) і розподіл пропозиції (як правило, багатоваріантний нормальний або t-розподіл).

Добре відомий факт, що чим далі розподіл пропозицій відбувається від заднього розподілу, тим менш ефективним є вибірник. Тож можна уявити, як використовувати якийсь метод машинного навчання для побудови розподілу пропозицій, який краще відповідає справжньому задньому розподілу, ніж простий багатоваріантний нормальний / т розподіл.

Однак, не ясно, це було б якесь підвищення ефективності. Пропонуючи глибоке навчання, я припускаю, що вам може бути цікаво використовувати якийсь підхід до нейронної мережі. У більшості випадків це буде значно дорожче обчислювально, ніж весь метод MCMC ванілі. Так само я не знаю жодної причини, що методи NN (або навіть більшість методів машинного навчання) роблять хорошу роботу із забезпечення належної щільності поза спостережуваним простором, що є ключовим для MCMC. Тож навіть ігноруючи обчислювальні витрати, пов'язані з побудовою моделі машинного навчання, я не бачу вагомих причин, чому це підвищило б ефективність вибірки.

— Кліф АВ
джерело

Cliff AB Я відчуваю, що ви та @AdamO роз’яснили мені концепції MCMC та ML більше, ніж витрачати години на іншу книгу. Я ціную ваші зусилля, хлопці, і я радий, що ви згадали про деякі сфери, в яких я можу далі заглибитися.

— Jespar

@Sitherion, про яку книгу ти йдеш?

— АдамО

@AdamO В даний час я читаю навчання про підсилення Річарда Саттона та машинне навчання: ймовірнісна перспектива Кевіна Мерфі, що містить розділ MCMC; а також публікації з різних журналів МЛ та обчислювальної статистики.

— Джеспар

3

Машинне навчання стосується прогнозування, класифікації або кластеризації в умовах, що контролюються або не контролюються. З іншого боку, MCMC просто займається оцінкою складного інтергралу (як правило, без закритої форми), використовуючи ймовірнісні чисельні методи. Вибір мегаполісів, безумовно, не є найбільш поширеним підходом. Насправді це єдиний метод MCMC, який не має ймовірнісного компонента. Тож ML не повідомила б нічого з MCMC у цьому випадку.

Вибірка на основі Важливості робить вимагає імовірнісного компонента. Він є більш ефективним, ніж Метрополіс за деякими основними припущеннями. Методи ML можуть бути використані для оцінки цього ймовірнісного компонента, якщо він відповідає деяким припущенням. Приклади можуть бути багатовимірними кластеризацією для оцінки складної високомірної гауссової щільності. Я не знайомий з непараметричними підходами до цієї проблеми, але це може бути цікавою сферою розвитку.

Тим не менш, ML вважає мене чітким кроком у процесі оцінки високовимірної складної моделі ймовірностей, яка згодом використовується в числовому методі. Я не бачу, як ML справді покращує MCMC в цьому випадку.

— АдамО
джерело

Дякую @AdamO, принаймні зараз я набагато краще розумію цю сферу.

— Jespar

1

Я вважаю, що ця відповідь є неповною і, можливо, невірною (залежно від інтерпретації актуального питання ОП, яке не зовсім зрозуміло). Типові методи , такі як ML Непараметричні і нейронні мережі можуть і будуть використані для поліпшення MCMC пробників. Насправді це активна область досліджень. Дивіться мою відповідь та посилання на них для початку.

— lacerbi

1

p

$p$

Дякую @AdamO Проте, якщо чесно, я не розумію вашого пояснення чи того, як це робить вашу відповідь правильною. Наприклад, я не розумію, що ви маєте на увазі, говорячи про те, що Метрополіс не має "ймовірнісного компонента". Крім того, ви заявляєте, що ML не може допомогти у вибірці, що просто не відповідає дійсності (навіть у вузькому визначенні вибірки як оцінці високомірного інтеграла), як показує моя відповідь.

— lacerbi

3

@AdamO: Гауссові процеси, методи ядра, мережі на довільній основі. Загалом, будь-яка форма наближення функції або оцінка щільності спрацювала б. Якщо це не методи ML, я не впевнений, що таке ... (будь ласка, зауважте, що ОП просила методи ML або DL). Також, як я запитав вище, чи можете ви пояснити, що ви мали на увазі, коли ви писали, що у Метрополіса немає імовірнісного компонента? Спасибі!

— lacerbi

0

Були деякі останні роботи з обчислювальної фізики, де автори використовували обмежені машини Больцмана для моделювання розподілу ймовірностей, а потім пропонували (сподіваємось) ефективні оновлення Монте-Карло arXiv: 1610.02746 . Ідея тут виявляється досить схожою на посилання, подані в @lacerbi вище.

В іншій спробі 1702.08586 автор чітко побудував машини Boltzmann, які можуть виконати (і навіть виявити) оновлений кластер Монте-Карло .

— Лей Ван
джерело