Чому існують рекомендації щодо використання Jeffreys або льотчиків на основі ентропії для пробників MCMC?

На своїй вікі-сторінці розробники компанії Stan заявляють:

Деякі принципи, які нам не подобаються: інваріантність, Джефріс, ентропія

Натомість я бачу багато нормальних рекомендацій щодо розповсюдження. Поки я використовував байєсівські методи, які не покладалися на вибірку, і я був щасливий, що зрозумів, чому був хорошим вибором для біноміальних ймовірностей. $\theta \sim \text{Beta}\left(\alpha=\frac{1}{2},\beta=\frac{1}{2}\right)$

— wirrbel
джерело

Загальний коментар: Документація щодо програмного забезпечення не завжди переформулює статистичні аргументи для того, що програмне забезпечення робить, а що не робить. Це справедливо для більшості пакетів R, на які я дивився, і я не здивований, коли чую те саме про Stan. Ендрю Гелман, очевидно, плідний автор.

— Нік Кокс

Подальший загальний коментар: Я не вважаю подібне питання дуже задоволеним, почасти тому, що йдеться про конкретних людей. Якщо живі автори десь не пояснюють і тут, очевидно, не активні, тоді надішліть їм електронний лист, щоб запитати. Більш задоволено запитати в абстракції про відносні достоїнства різних підходів. Іноді справедливо сказати, що ви завжди можете використовувати інше програмне забезпечення, якщо ви виявите, що щось не вистачає, включаючи написання власного. Нерозголошення: ніколи не використовувався Стен.

— Нік Кокс

@ NickCox Я не думаю, що це питання виграло б від анонімізації, тому що (1) контекст програмного забезпечення для вибірки є важливим (2) моє враження, що відмова від Jeffreys priors є незвичним, що варто зазначити. що відоме джерело висловлює це твердження. (3) Я не думаю, що цитувати когось у питанні не конфронтаційно.

— wirrbel

Енді написав "Деякі принципи, які нам не подобаються: інваріантність, Джеффріс, ентропія", але щоб зрозуміти, чому слід шукати його книгу

— Бен Гудріч,

Крім того, у цьому документі містяться найсвіжіші думки про пріорів серед трьох розробників Stan.

— Бен Гудрич

Відповіді:

Це, звичайно, різноманітний набір людей, які мають різні думки, що збираються разом і пишуть вікі. Я підсумовую, що знаю / розумію, з коментарем:

Вибір попереднього вибору на основі зручності обчислень є недостатньою обґрунтуванням. Наприклад, використовуючи бета-версію (1/2, 1/2) виключно тому, що це дозволяє сукупне оновлення - це не дуже гарна ідея. Звичайно, як тільки ви зробите висновок, що він має хороші властивості для типу проблеми, над якою ви працюєте, це добре, і ви можете так само добре зробити вибір, який спрощує впровадження. Існує маса прикладів, коли зручний вибір за замовчуванням виявляється проблематичним (див. Gamna (0,001, 0,001), що дозволяє відбирати вибірки Гіббса).
У Stan - на відміну від WinBUGS або JAGS - немає особливої переваги (умовно) сполучених пріорів. Таким чином, ви можете просто добре ігнорувати обчислювальний аспект. Не зовсім, тому що з дуже важкими хвостовими пріорами (або неправильними пріорами) та даними, які не добре визначають параметри, ви стикаєтесь із проблемами (насправді не специфічною проблемою для Стен, але Стен досить добре розпізнає ці проблеми та попереджає користувача замість щасливого відбору проб).
Джефріс та інші «малоінформаційні» пріорі іноді можуть бути неправомірними або бути занадто важкими для розуміння у великих розмірах (не маючи на увазі їх отримання) та з рідкими даними. Може бути, що вони занадто часто спричиняли неприємності для авторів, щоб ніколи з ними не було комфортно. Коли ви працюєте над чимось, ви дізнаєтесь більше і вам зручніше, отже, час від часу змінюється думка.
У налаштуваннях розріджених даних попереднє дійсно має значення, і якщо ви можете вказати, що цілком неправдоподібні значення параметра є неправдоподібними, це дуже допомагає. Це мотивує ідею слабкоінформативних пріорів - не справді повністю інформативних пріорів, але тих, хто підтримує найбільш правдоподібні цінності.
Насправді ви можете задатися питанням, чому хтось турбується з неінформативними пріорами, якщо ми маємо багато даних, які дійсно добре визначають параметри (можна просто використати максимальну ймовірність). Звичайно, є безліч причин (уникнення патологій, набуття «реальної форми» плакатів тощо), але в ситуаціях з «великою кількістю даних», здається, немає справжнього аргументу проти слабоінформативних пріорів.
Можливо, трохи дивно, що N (0, 1) є напрочуд пристойним пріоритетом для коефіцієнта логістичної, пуассонової або регрессії Кокса для багатьох застосувань. Наприклад, це приблизно приблизний розподіл спостережуваних ефектів лікування у багатьох клінічних випробуваннях.

— Бьорн
джерело

Дякую за детальну відповідь. Я думаю, моє здивування не стільки в кон'юнктурі (тому що якщо я правильно це зрозумів, пріорам Джеффрі не потрібно бути кон'югорами, вони просто повинні бути інваріантними в умовах репараметризації). Тож я б цілком зрозумів поради проти споріднених пріорів.

— wirrbel

Я думаю, що турбота з Джефрісом до цього в основному полягає в тому, що це якийсь високий розмір, який раніше не може бути правильним і може мати певний вплив на ваш висновок, який ви не повністю розумієте. Я думаю, що це стосується в основному рідкісних даних, хоча, можливо, хтось може вказати на приклад із непередбачуваними даними, де виникають деякі проблеми (я не знаю жодної). Окрім того, що Джефріс попередні та різні інші "неінформативні" варіанти, є незручність насправді отримувати це.

— Бьорн

Вони не дають жодного науково-математичного обґрунтування для цього. Більшість розробників не працюють над цим пріором, і вони вважають за краще використовувати більш прагматичні / евристичні пріори, наприклад, звичайні пріори з великими розбіжностями (що може бути інформативним у деяких випадках). Однак трохи дивно, що вони із задоволенням використовують пріори ПК, які базуються на ентропії (розбіжність KL) після того, як вони почали працювати над цією темою.

$Gamma(0.001,0.001)$

— Попередній
джерело

чи можете ви надати інформаційне гіперпосилання / джерело wrt за заявою Гельмана.

— Джим

@Jim Звичайно, це папір: projecteuclid.org/euclid.ba/1340371048

— До