Орієнтовні показники для MCMC


14

Чи проводилися широкомасштабні дослідження методів MCMC, які порівнюють продуктивність декількох різних алгоритмів набір тестової щільності? Я маю на увазі щось еквівалентне документу Ріоса та Сахінідіса (2013), який є ретельним порівнянням великої кількості оптимізаторів чорних коробок без похідних у кількох класах тестових функцій.

Для MCMC ефективність може бути оцінена, наприклад, в ефективній кількості зразків (ESS) на оцінку щільності або в іншому відповідному показнику.

Кілька коментарів:

  • Я розумію, що продуктивність буде сильно залежати від деталей цільового pdf, але аналогічний (можливо, не однаковий) аргумент справедливий для оптимізації, і тим не менш, існує безліч базових функцій, наборів, змагань, робіт тощо, що стосується оптимізації бенчмаркінгу. алгоритми.

  • Крім того, правда, що MCMC відрізняється від оптимізації тим, що потрібно порівняно набагато більше уваги та налаштування від користувача. Тим не менш, зараз існує декілька методів MCMC, які потребують малої або ніякої настройки: методи, що адаптуються у фазі згоряння, під час вибірки, або багатодержавні (також звані ансамблеві ) методи (наприклад, Emcee ), що еволюціонують декількома взаємодіючими ланцюгами та використовують інформація з інших ланцюгів для направлення вибірки.

  • Мене особливо цікавить порівняння між стандартними та багатодержавними (ака-ансамблевими) методами. Для визначення багатодержавності див. Розділ 30.6 книги МакКей :

х


Оновлення

  • Для цікавого заняття методами ансамблевих акаунтів у багатьох штатах дивіться цю публікацію Бба Карпентера в блозі Гельмана, і мій коментар, що стосується цієї публікації в CV.

Відповіді:


5

Після декількох пошуків в Інтернеті я зіткнувся з враженням, що всебічного орієнтиру встановлених методів MCMC, аналогічного тому, що можна знайти в літературі з оптимізації, не існує. (Я був би радий помилитися тут.)

Легко знайти порівняння кількох методів MCMC щодо конкретних проблем у застосованому домені. Це було б добре, якби ми могли об'єднати цю інформацію, однак якість таких орієнтирів часто недостатня (наприклад, через брак повідомлених показників або поганий вибір проекту).

Далі я опублікую те, що, на мою думку, є цінним внеском, коли я їх знаходжу:

  • Нішіхара, Мюррей та Адамс, паралельний МКМК з узагальненим відбором еліптичних зрізів, JMLR (2014). Автори пропонують новий багатодержавний метод GESS та виконують порівняння з 6 іншими однодержавними та багатодержавними методами на 7 тестових функціях. Вони оцінюють ефективність як ESS (Ефективний розмір вибірки) за секунду та за оцінкою функції.

  • SamplerCompare - це пакет R з метою порівняльного алгоритму MCMC - саме те, про що я питав у своєму первісному запитанні. На жаль, пакет містить лише кілька тестових функцій; супровідний документ повідомляє про відсутність фактичних орієнтирів (лише невеликий приклад); і, здається, не було жодних спостережень.

Томпсон, Мадлен Б. "Вступ до SamplerCompare." Журнал статистичного програмного забезпечення 43.12 (2011): 1-10 ( посилання ).

  • Для цікавого заняття методами ансамблевих акаунтів у багатьох штатах дивіться цю публікацію Бба Карпентера в блозі Гельмана, і мій коментар, що стосується цієї публікації в CV.

Ваше друге посилання є мертвим - ви можете змінити його на робоче
Тім

Ви можете ознайомитись з цією роботою в грудні 2017 року: Райан Тернер та Брейді Ніл. Наскільки добре працює ваш пробовідбірник? Здається, що вона забезпечує чітке рішення саме цієї проблеми, щоб створити хороший орієнтир для алгоритмів MCMC.
Карл

2

Я погоджуюся з вашою оцінкою, що не існує комплексних орієнтирів для методів MCMC. Це тому, що кожен пробовідбірник MCMC має плюси і мінуси, і є надзвичайно специфічними для проблеми.

У типовому байєсівському режимі моделювання ви можете запустити один і той же пробовідбірник з різними швидкостями змішування, коли дані різні. Я б хотів сказати, що якщо в майбутньому з'явиться всебічне базове дослідження різних пробників MCMC, я б не довіряв результатам, які застосовуються поза наведеними прикладами.

Що стосується використання ESS для оцінки якості вибірки, то варто зазначити, що ESS залежить від кількості, яка повинна бути оцінена з вибірки. Якщо ви хочете знайти середнє значення для вибірки, отриманий ESS буде відрізнятися від того, якщо ви хочете оцінити 25-й квантил. Сказавши, що якщо кількість відсотків визначена, ESS є розумним способом порівняння пробовідбірників. Можливо, краща ідея - ESS за одиницю часу.

Одна вада ESS полягає в тому, що для задач багатовимірного оцінювання ESS повертає ефективний розмір вибірки для кожного компонента окремо, ігноруючи всі перехресні кореляції в процесі оцінки. У цьому документі нещодавно було запропоновано багатоваріантну ESS та впроваджено в Rпакет mcmcseчерез функцію multiESS. Незрозуміло, як цей метод порівнюється з ESS codaпакету, але на самому початку здається більш розумним, ніж одновимірні ESS методи.


2
(+1) Дякую за відповідь. Я погоджуюся з деякими вашими пунктами, але я все ж думаю, що деяку інформацію можна було б отримати з такого еталону. Як можна використовувати результати таких орієнтирів, щоб орієнтуватися на майбутній вибір, це залежить від них деякі докази кращі, ніж відсутні докази. Гарні моменти щодо ESS. Під багатодержавним я маю на увазі багатодержавний (або багатоланцюговий, якщо ви віддаєте перевагу), а не просто багатоваріантний - дивіться цитату з книги Маккея в моєму первісному запитанні.
lacerbi

2
Взагалі, деякі пробовідбірники погано спрацьовують для багатомодальних розподілів (MH, Gibbs), а деякі погано впливають на невипуклу підтримку (Hamiltonian MC). З іншого боку, для проблем з великими розмірами Hamiltonian MC добре працює, а для мультимодальних розподілів добре моделюється загартування тощо. Зробити будь-якого бенчмаркінгу, можливо, знадобиться визначити різні широкі класи розподілу цілей (суб-експоненціальний, увігнутий журнал тощо), щоб результати були інтерпретовані загалом.
Грінпаркер

1
Ну, так, у цьому вся суть побудови еталону для класу алгоритмів. Дивіться, наприклад, це для глобальної оптимізації. Очевидно, що орієнтир для MCMC не може просто запозичити ті, що існують для оптимізації; необхідно зосередити увагу на особливостях цільової щільності, які є специфічними, загальними та цікавими для проблем MCMC, як ті, які ви згадали.
lacerbi
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.