Чи може хтось пояснити мені NUTS англійською мовою?

18

Моє розуміння алгоритму таке:

Ніякий пробовідбірник (NUTS) - це гамільтонівський метод Монте-Карло. Це означає, що це не метод Маркова ланцюга, і, таким чином, цей алгоритм дозволяє уникнути випадкової частини прогулянки, яку часто вважають неефективною і повільною для сходження.

Замість того, щоб робити випадкову ходьбу, NUTS робить стрибки довжиною x. Кожен стрибок подвоюється, коли алгоритм продовжує працювати. Це відбувається до тих пір, поки траєкторія не досягне точки, де вона хоче повернутися до початкової точки.

Мої запитання: Що такого особливого у повороті? Як подвоєння траєкторії не пропускає оптимізовану точку? Чи правильний мій опис?

bayesian monte-carlo markov-process

— user3007270
джерело

Я знайшов цю публікацію, і ілюстровані імітації дійсно впливають на пояснення понять.

— Кель

13

Біт без повороту - це те, як створюються пропозиції. HMC породжує гіпотетичну фізичну систему: уявіть собі кульку з певною кінетичною енергією, що котиться навколо ландшафту з долинами та пагорбами (аналогія розпадається на більш ніж 2 виміри), визначені задньою частиною, з якої ви хочете взяти пробу. Кожен раз, коли ви хочете взяти новий зразок MCMC, ви безладно вибираєте кінетичну енергію і починаєте кочення кулі з того місця, де ви знаходитесь. Ви моделюєте дискретні етапи часу, і щоб переконатися, що ви правильно вивчаєте простір параметрів, ви імітуєте кроки в одну сторону, а вдвічі більше - в інший бік, знову повертаєтесь тощо. робити це, коли ви зробили поворот (тобто, здається, пройшли повсюди).

У цей момент запропонований наступний крок Вашої Мережі Марків вибирається (з певними обмеженнями) з пунктів, які Ви відвідали. Тобто, ціле моделювання гіпотетичної фізичної системи було "просто", щоб отримати пропозицію, яка потім приймається (наступний зразок MCMC є запропонованою точкою) або відхиляється (наступний зразок MCMC є початковою точкою).

Розумне в цьому полягає в тому, що пропозиції складаються на основі форми задньої частини і можуть бути на іншому кінці розповсюдження. На відміну від «Метрополіс-Гастінгс» пропонує пропозиції в межах (можливо, перекошеного) кулі, вибірки Гіббса рухаються лише за одним (або принаймні дуже мало) вимірами одночасно.

— Бьорн
джерело

Чи не могли б ви розширити коментар " Здається, що пройшли повсюди "?

— Габріель

1

Це означає, що є деяка вказівка на те, що він охопив розповсюдження, за яким NUTS намагається судити, чи повністю ви обернулися. Якщо це так, ви, сподіваємось, за один крок MCMC перейдете до будь-якої частини задньої частини. Звичайно, умова справді не гарантує того, що ви дослідили всю задню частину, але, скоріше, вказує на те, що ви дослідили її "поточну частину" (якщо у вас є кілька мультимодальних дистрибутивів, ви можете мати проблеми з потраплянням до всіх частин розподілу).

— Бьорн

6

Ви неправі, що HMC - це не метод Маркова ланцюга. За Вікіпедією :

У математиці та фізиці гібридний алгоритм Монте-Карло, також відомий як Гамільтоніан Монте-Карло, є методом Монков-Карло ланцюга Маркова для отримання послідовності випадкових вибірок з розподілу ймовірностей, для яких прямий відбір проб є складним. Цю послідовність можна використовувати для наближення розподілу (тобто для генерації гістограми) або для обчислення інтегралу (наприклад, очікуваного значення).

Для більшої ясності прочитайте документ arXiv Betancourt , в якому згадуються кінцеві критерії NUTS:

... визначте, коли траєкторія достатньо довга, щоб забезпечити достатнє дослідження мікрорайону навколо поточного встановленого рівня енергії. Зокрема, ми хочемо уникати як занадто короткої інтеграції; в такому випадку ми б не скористалися повною мірою гамільтоновими траєкторіями, так і інтеграції занадто довго, і в цьому випадку ми витрачаємо дорогоцінні обчислювальні ресурси на розвідку, яка дає лише зменшення віддачі.

Додаток A.3 розповідає про щось на кшталт траєкторії подвоєння, яку ви згадуєте:

Ми також можемо розширюватися швидше, подвоюючи довжину траєкторії на кожній ітерації, отримуючи вибіркову траєкторію t ∼ T (t | z) = U T2L з відповідним вибірковим станом z ′ ∼ T (z ′ | t). У цьому випадку і старі, і нові компоненти траєкторії при кожній ітерації еквівалентні листя досконалих, упорядкованих двійкових дерев (мал. 37). Це дозволяє будувати нові компоненти траєкторії рекурсивно, поширюючи зразок на кожному кроці рекурсії ...

і розширює це на A.4, де йдеться про динамічну реалізацію (розділ A.3 розповідає про статичну реалізацію):

На щастя, ефективні статичні схеми, обговорені в Розділі A.3, можуть бути змінені для досягнення динамічної реалізації, як тільки ми обрали критерій для визначення, коли траєкторія виросла досить довго, щоб задовільно дослідити відповідний набір енергії.

Я думаю, що головне в тому, що він не робить стрибків, які подвоюються, він обчислює свій наступний стрибок за допомогою техніки, яка подвоює запропоновану довжину стрибка, поки не буде виконано критерій. Принаймні, так я розумію до цих пір.

— Уейн
джерело