Стен проти Гельмана-Рубін визначення


16

Я переглядав документацію Стен, яку можна завантажити тут . Мене особливо зацікавило їх реалізація діагностики Гельмана-Рубіна. Оригінальний документ Gelman & Rubin (1992) визначає потенційний коефіцієнт зменшення масштабу (PSRF) наступним чином:

Нехай є ланцюжком го Маркова, відібраний загальний незалежних ланцюгів. Нехай - середнє значення з го ланцюга, а загальне середнє значення. Визначте, де І визначте B B = \ dfrac {N} {M-1} \ sum_ {m = 1} ^ {M} (\ bar {X} _ {m \ cdot} - \ bar {X} _ {\ cdot \ cdot }) ^ 2 \,. i M ˉ X i i ˉ X W = 1Xi,1,,Xi,NiMX¯iiX¯s 2 m =1

W=1Mm=1Msm2,
B B = N
sm2=1N1t=1N(X¯mtX¯m)2.
B
B=NM1m=1M(X¯mX¯)2.

Визначте

V^=(N1N)W+(M+1MN)B.
PSRF оцінюється з R^ де
R^=V^Wdf+3df+1,
де df=2V^/Var(V^) .

Документація Стен на сторінці 349 ігнорує термін з df а також видаляє (M+1)/M мультиплікативний термін. Це їх формула,

Оцінювач дисперсії -

var^+(θ|y)=N1NW+1NB.
Нарешті, потенційна статистика зменшення масштабу визначається
R^=var^+(θ|y)W.

З того, що я міг бачити, вони не дають посилання на цю зміну формули, і не обговорюють її. Зазвичай не надто велика і часто може бути такою ж низькою, як , тому не слід ігнорувати, навіть якщо термін можна наблизити до 1.M2(M+1)/Mdf

То звідки ця формула?


EDIT: Я знайшов часткову відповідь на питання " звідки береться ця формула? ", Оскільки книга Байєсового аналізу даних Гельмана, Карліна, Стерна та Рубіна (Друге видання) має абсолютно таку ж формулу. Однак книга не пояснює, як / чому виправдано ігнорувати ці терміни?


Про це ще немає жодної публікації, і формула, ймовірно, зміниться в найближчі кілька місяців.
Бен Гудріч

@BenGoodrich Дякую за коментар. Чи можете ви сказати щось більше про мотивацію використання цієї формули? І чому саме зміниться формула?
Грінпаркер

1
Нинішня формула розділеної R-шапки - це спосіб, здебільшого змусити її застосовуватись до випадку, коли є лише один ланцюг. Наступні зміни здебільшого стосуються того, що нижній граничний задній розподіл може бути не нормальним або мати середню та / або дисперсію.
Бен Гудрих

1
@BenGoodrich Так, я розумію, чому STAN розділив Rhat. Але навіть у тому випадку , і тому константа що не можна не помітити. M=2(M+1)/M=3/2
Грінпаркер

Відповіді:


4

Я перейшов за конкретним посиланням, поданим для Gelman & Rubin (1992), і він має як і в пізніших версіях, хоча замінено на у Brooks & Gelman (1998) та на у BDA2 (Gelman et al, 2003) та BDA3 (Gelman et al, 2013).

σ^=n1nW+1nB
σ^σ^+var^+

BDA2 і BDA3 (не вдалося перевірити зараз BDA1) мають вправу з підказками, щоб показати, що є неупередженою оцінкою потрібної кількості.var^+

Gelman & Brooks (1998) має рівняння 1.1 яку можна переставити як Ми можемо бачити, що ефект другого та третього доданків незначний для прийняття рішень, коли великий. Дивіться також обговорення в пункті перед розділом 3.1 у Brooks & Gelman (1998).

R^=m+1mσ^+Wn1mn,
R^=σ^+W+σ^+Wmn1mn.
n

Gelman & Rubin (1992) також мали термін з df як df / (df-2). Brooks & Gelman (1998) мають розділ, що описує, чому це корекція df невірно, і визначає (df + 3) / (df + 1). Абзац перед розділом 3.1 у Brooks & Gelman (1998) пояснює, чому (d + 3) / (d + 1) можна скинути.

Мабуть, ваше джерело для рівнянь було чимось після публікації Brooks & Gelman (1998), як у вас (d + 3) / (d + 1) там, а Gelman & Rubin (1992) мали df / df (-2). Інакше Gelman & Rubin (1992) та Brooks & Gelman (1998) мають рівноцінні рівняння (з дещо різними позначеннями та деякі терміни розташовані по-різному). BDA2 (Gelman et al., 2003) більше не має термінів . BDA3 (Gelman et al., 2003) та Stan представили версію розділених ланцюгів.σ^+Wmn1mn

Моя інтерпретація статей та досвіду використання різних версій полягає в тому, що терміни, які були врешті-решт відкинуті, можна ігнорувати, коли великий, навіть коли - ні. Я також невиразно пам’ятаю, як це обговорювали з Ендрю Гелманом років тому, але якщо ви хочете бути впевненими в історії, вам слід запитати його.R^nm

Зазвичай M не надто велика і часто може бути такою ж низькою, як 2

Я дуже сподіваюся, що це не часто так. У випадках, коли ви хочете використовувати діагностику конвергенції split- , вам слід використовувати щонайменше 4 ланцюги розщеплення і таким чином мати M = 8. Ви можете використовувати менше ланцюгів, якщо ви вже знаєте, що у ваших конкретних випадках конвергенція та змішування відбувається швидко.R^

Додаткова довідка:

  • Брукс і Гельман (1998). Журнал обчислювальної та графічної статистики, 7 (4) 434-455.

Так, він має такий самий як ви згадуєте, але їх статистикою є (дивіться на рівняння вгорі сторінки 495 в офіційній версії Stat Science), яке вводить термін який я говорив. Крім того, подивіться на код та опис коду пакету R, у якого діагностика ГР проводилася з 1999 року.σ^2R^(σ^2+B/mn)/Wdfterm(m+1)/m
Greenparker

Я збентежений. Стаття за посиланням, яке ви надали, та стаття на веб-сторінках Stat Science містить лише сторінки 457-472.Я не перевіряв зараз, але років тому та минулого року, коли я перевіряв код, у нього не було поточної рекомендованої версії.
Aki Vehtari

Зауважте, що я відредагував свою відповідь. Gelman & Brooks (1998) має більш чіткий термін (m + 1) / m, і, здається, ви пропустили останній термін, який здебільшого скасовує ефект (m + 1) / m терміну для прийняття рішень. Дивіться цей параграф перед розділом 3.1.
Aki Vehtari

Вибачте, це був помилковий помилок. Це сторінка 465, і Гельман і Рубін мають те саме визначення, що і Брукс і Гельман (яке ви заявляєте вище). Рівняння 1.1 у Брукса та Гельмана - це саме те, що я записав (коли ви переставляєте деякі терміни).
Грінпаркер

"Ми можемо бачити, що ефект другого і третього терміну є незначним для прийняття рішень, коли n великий", тож, що ви говорите, це те, що вираз в BDA і, отже, STAN походить від по суті ігнорування цих термінів для великих n?
Грінпаркер
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.