Слабо інформативні попередні розподіли для параметрів шкали


21

Я використовую звичайні розподіли журналу як попередні розподіли для параметрів масштабу (для звичайних розподілів, t розподілів і т. Д.), Коли маю грубе уявлення про те, яким повинен бути масштаб, але хочу помилитися, сказавши, що я не знаю багато про це. Я використовую його, тому що таке використання має для мене інтуїтивний сенс, але я не бачив, щоб інші його використовували. Чи є приховані небезпеки для цього?


1
Нормали мають сполучені пріори: en.wikipedia.org/wiki/Normal-gamma_distribution . Ви можете знайти їх набагато простіше у використанні.
whuber

Цікаво. Я займаюся чисельними речами, чи є перевага в цих дистрибутивах, крім конгрегентності?
Джон Сальватьє

5
Насправді не моя область, але це може бути актуальним? Гельман А. Попередні розподіли параметрів дисперсії в ієрархічних моделях. Байєсівський аналіз 2006; 1: 515–533. dx.doi.org/10.1214/06-BA117A
OneStop

Я знайшов цей розподіл масштабованої бета- 2, запропонований Перезом і Перічі. 2

Кон'югатні пріори для певного розподілу, як звичайного, є просто пріорами, які призводять до такого розподілу як заднього розподілу з урахуванням набору даних. Якщо ви використовуєте кон'югат раніше, вам не доведеться вступати в безлад для інтеграції для обчислення заднього. Це робить зручніше, але в наші дні MCMC значно спрощує використання широкого спектру можливих пріоритетів.
Майкл Р. Черник

Відповіді:


20

Я б рекомендував використовувати "бета-розподіл другого роду" (бета-версія 2 ) для м'яко інформативного розподілу та використовувати кон'югований зворотний розподіл гами, якщо у вас є сильні попередні переконання. Причиною, про яку я кажу, є те, що попередній кон'югат є неміцним в тому сенсі, що якщо конфлікт між даними та даними, то пріоритет має необмежений вплив на задній розподіл. Така поведінка - це те, що я б назвав "догматичним", а не виправдане м'якою попередньою інформацією.

Властивістю, яка визначає стійкість, є поведінка хвоста попереднього та ймовірного. Дуже хороша стаття, в якій викладені технічні деталі, тут . Наприклад, може бути обрана ймовірність (скажімо, t-розподіл), така що, як спостереження (тобто стає довільно великим), вона відкидається від аналізу параметра розташування (майже так само, як ви інтуїтивно зрозуміли б робити з таким спостереженням). Швидкість «відкидання» залежить від того, наскільки важкі хвости розподілу.yi

Деякі слайди, які показують застосування в контексті ієрархічного моделювання, можна знайти тут (показує математичну форму розподілу Beta 2 ), з документом тут .

Якщо ви не перебуваєте в контексті ієрархічного моделювання, я б запропонував порівняти задній (або будь-які результати, які ви створюєте), але скористайтеся Jeffreys попередньо для параметра масштабу, який задається . Це може бути створено як обмеженнящільностіBeta2,оскільки обидва його параметра сходяться до нуля. Для наближення ви можете використовувати малі значення. Але я б спробував розробити рішенняаналітично,якщо це взагалі можливо (а якщо не повне аналітичне рішення, отримайте аналітичне рішення настільки далеко, наскільки це можливо), тому що ви не тільки заощадите собі деякий обчислювальний час, але ви також, можливо, кращезрозумієте,що відбувається у вашій моделі.p(σ)1σ

Наступною альтернативою є визначення вашої попередньої інформації у вигляді обмежень (середнє значення , відхилення, рівне V , IQR, рівне I Q R і т. Д. Зі значеннями M , V , I Q R, визначеними власноруч), а потім використовуйте максимальний розподіл ентропії (шукайте будь-яку роботу Едвіна Джейнеса або Ларрі Бретторста, щоб добре пояснити, що таке "Максимальна ентропія", а що ні ") стосовно" інваріантної міри "Джеффріса m ( σ ) = 1МVIQRM,V,IQR . m(σ)=1σ

MaxEnt - це версія "Rolls Royce", тоді як Beta 2 - це більше "седан". Причиною цього є те, що розподіл MaxEnt "приймає найменше" з урахуванням обмежень, які ви вклали в нього (наприклад, жодних обмежень означає, що ви просто отримаєте Jeffreys раніше), тоді як розподіл Beta 2 може містити деякі "приховані" функції, які може бути або не бажаним у вашому конкретному випадку (наприклад, якщо попередня інформація є більш достовірною, ніж дані, то бета-версія 2 погана).

Інша приємна властивість розподілу MaxEnt полягає в тому, що якщо в механізмі генерування даних немає визначених обмежень, то розподіл MaxEnt є переважно найбільш імовірним розподілом, яке ви побачите (ми говоримо, що шанси перевищують мільярди і трильйони до одного). Отже, якщо дистрибутив, який ви бачите, не є MaxEnt, то, ймовірно, є додаткові обмеження, які ви не вказали, працюючи над істинним процесом, і спостережувані значення можуть дати підказку щодо того, яким може бути цей обмеження.


@probabilityislogic Приємна відповідь. Чи знаєте ви, де я можу знайти документи, які ви згадали, у третьому абзаці? Посилання не працюють.

1
той, хто працює на папері, тут . Це було на веб-сайті конференції "об'єктивний байєс 09" (засідання Валенсії). Я не думаю, що слайди більше не будуть доступні, оскільки веб-сайт для конференції був знятий ...: (шкода, це був гарний набір слайдів. Цей підкос перед тим виглядає цікаво за посиланням, яке ви надали.
ймовірністьвідомого

Beta2

@Procrastinator Чи я правий припустити, що ви хочете лише належних пріорів? Ви цього не сказали, але якщо ви дозволите неправомірним пріорам, то вже згадані пріори Джефріса спрацювали, і я можу навести теорію ймовірності Джеффріса, книги Деніса Ліндлі чи статистичні енциклопедії. Те, як запит можна було перевірити за допомогою Google, щоб знайти відповідь, і якщо його не знайти, напевно, в літературі немає нічого, крім тієї, яку ви викреслили.
Майкл Р. Черник

@MichaelChernick Так, ви праві, мене цікавлять лише власні пріори. Причиною цього є те, що для власних пріорів (1) існування задньої частини не обмежує певні моделі та (2) я хотів перевірити, чи не пропускаю я ще одну цікаву пропозицію. Я погоджуюсь з вами, що, схоже, пріори Гельмана, Періккі та Гамма є найпопулярнішими в літературі, але я також зазначив, що існує тенденція пропонувати пріорів з великими хвостами, щоб зробити «надійні» умовиводи.

13

У наступному документі Даніельса порівнюються різні пріори усадки за дисперсією. Це належні пріори, але я не впевнений, скільки можна назвати неінформативними, якщо такі є. Але він також пропонує список неінформативних пріорів (не всіх належних). Нижче наведено посилання.

MJ Daniels (1999), попередник дисперсії в ієрархічних моделях , канадський Дж. Стат. , т. 27, ні. 3, с. 567–578.

Пріори

  1. K
  2. τ2
  3. τ1
  4. 1/(σ2+τ2)
  5. Правильні Джеффрі :σ/(2(σ2+τ2)3/2)
  6. Рівномірна усадка :σ2/(σ2+τ2)
  7. DuMouchel :σ/(2τ(σ+τ)2)

Ще один останній документ у спорідненій формі - наступний.

А. Гельман (2006), Попередні розподіли параметрів дисперсії в ієрархічних моделях , Байєсовий аналіз , т. 1, ні. 3, с. 515–533.


2
(+1) Це гарна знахідка. Я додав стійке посилання на документ Daniels, а також ще одну посилання, яка, здається, доповнює його.
кардинал

4

(Питання застаріле, але питання не)

Особисто я думаю, що ваша інтуїція має певний сенс. Тобто, якщо вам не потрібна математична охайність поєднання, то який би розподіл ви не використовували для параметра розташування, ви повинні використовувати той самий для журналу параметра масштабу. Отже, що ви говорите: використовуйте еквівалент звичайного попереднього.

Ви б фактично використовували звичайний попередній параметр місцезнаходження? Більшість людей скажуть, що, якщо ви не зробите дисперсію величезною, це, мабуть, трохи "занадто догматично", з причин, пояснених в інших відповідях тут (необмежений вплив). Виняток буде, якщо ви робите емпіричні баїси; тобто використовуючи ваші дані для оцінки параметрів вашого попереднього.

Якщо ви хочете бути "слабоінформативними", ви, мабуть, обрали б розподіл із жирними хвостами; очевидними кандидатами є т розподіли. Останній рада Gelman, здається, використовувати при df 3-7. (Зверніть увагу, що посилання також підтримує мою пропозицію про те, що ви хочете зробити те саме, що і для журналу масштабу, який ви зробили б для розташування) Отже, замість лонормального, ви можете використовувати log-student-t. Для цього в квартирі ви можете зробити щось на кшталт:

real log_sigma_y; //declare at the top of your model block
//...some more code for your model
log_sigma_y <- log(sigma_y); increment_log_prob(-log_sigma_y);
log_sigma_y ~ student_t(3,1,3); //This is a 'weakly informative prior'.

Однак я вважаю, що якщо код вище занадто складний для вас, ви, ймовірно, могли б відійти з лонормальним попередником, з двома застереженнями. По-перше, зробіть цю дисперсію в кілька разів ширшою, ніж ваша груба здогадка про те, наскільки "ви не впевнені"; ви хочете слабко інформативний попередній, а не сильно інформативний. І по-друге, як тільки ви підходите до вашої моделі, перевірте задню медіану параметра і переконайтесь, що журнал його не надто далеко від центру логіки. "Не надто далеко", ймовірно, означає: менше двох стандартних відхилень і, бажано, не набагато більше одного SD.


2

Для параметрів шкали ієрархічної моделі я в основному використовував пропозицію Ендрю Гелмана щодо використання складеного нецентрального розподілу. Це працювало для мене досить пристойно.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.