Якою була б надійна байєсівська модель для оцінки масштабу приблизно нормального розподілу?


32

Існує ряд надійних оцінювачів масштабу . Помітним прикладом є середнє абсолютне відхилення, яке відноситься до стандартного відхилення як . У байєсівській системі існує ряд способів чітко оцінити розташування приблизно нормального розподілу (скажімо, нормального зараження сторонніми людьми), наприклад, можна припустити, що дані поширюються як при розподілі, так і по розподілу Лапласа. Тепер моє запитання:σ=MAD1.4826

Якою може бути байєсівська модель для вимірювання масштабу приблизно нормального розподілу надійним способом, надійною в тому ж сенсі, що і MAD або подібні надійні оцінки?

Як і у випадку з MAD, було б акуратно, якби байєсівська модель могла наблизитись до SD звичайного розподілу у випадку, коли розподіл даних насправді нормально розподіляється.

редагувати 1:

Типовий приклад моделі, яка є надійною щодо забруднення / перешкоджання, якщо припускати, що дані є приблизно нормальними, використовується при розподілі на зразок:yi

yit(m,s,ν)

Де - середнє значення, - шкала, а - ступінь свободи. З відповідними пріорами на та , буде оцінкою середнього значення яке буде надійним щодо інших людей. Однак не буде послідовною оцінкою SD оскільки залежить від . Наприклад, якщо було б зафіксовано до 4.0, а модель, розміщена вище, підходила б до величезної кількості зразків з розподілу тодіmsνm,sνmyisyisννNorm(μ=0,σ=1)sбуло б близько 0,82. Що я шукаю - це модель, яка є надійною, як модель t, але для SD замість (або додатково до цього) середнього.

редагувати 2:

Тут подано кодований приклад в R та JAGS про те, як згадана вище t-модель є більш надійною щодо середнього.

# generating some contaminated data
y <- c( rnorm(100, mean=10, sd=10), 
        rnorm(10, mean=100, sd= 100))

#### A "standard" normal model ####
model_string <- "model{
  for(i in 1:length(y)) {
    y[i] ~ dnorm(mu, inv_sigma2)
  }

  mu ~ dnorm(0, 0.00001)
  inv_sigma2 ~ dgamma(0.0001, 0.0001)
  sigma <- 1 / sqrt(inv_sigma2)
}"

model <- jags.model(textConnection(model_string), list(y = y))
mcmc_samples <- coda.samples(model, "mu", n.iter=10000)
summary(mcmc_samples)

### The quantiles of the posterior of mu
##  2.5%   25%   50%   75% 97.5% 
##   9.8  14.3  16.8  19.2  24.1 

#### A (more) robust t-model ####
library(rjags)
model_string <- "model{
  for(i in 1:length(y)) {
    y[i] ~ dt(mu, inv_s2, nu)
  }

  mu ~ dnorm(0, 0.00001)
  inv_s2 ~ dgamma(0.0001,0.0001)
  s <- 1 / sqrt(inv_s2)
  nu ~ dexp(1/30) 
}"

model <- jags.model(textConnection(model_string), list(y = y))
mcmc_samples <- coda.samples(model, "mu", n.iter=1000)
summary(mcmc_samples)

### The quantiles of the posterior of mu
## 2.5%   25%   50%   75% 97.5% 
##8.03  9.35  9.99 10.71 12.14 

Можливо, це недостатньо надійно, але розподіл у квадратику є звичайно обраним сполучником, що передує оберненню дисперсії.
Майк Данлаве

Ви можете дізнатися, чи достатня для вас перша відповідь на це запитання stats.stackexchange.com/questions/6493/… ; це може бути не так, але, можливо, так і є.
jbowman

Який ви попередній рівень забруднення? Чи забруднення буде систематичним? Випадкові? Чи буде генеровано це одним розподілом чи кількома дистрибутивами? Ми знаємо щось про розподіл шуму? Якщо хоча б деякі речі, описані вище, ми можемо помістити якусь модель суміші. В іншому випадку я не впевнений, які ваші переконання щодо цієї проблеми насправді, і якщо у вас цього немає, це здається дуже невиразним налаштуванням. Вам потрібно щось виправити, інакше ви можете випадковим чином обрати точку і оголосити її єдиною з генерованих точок з Гауссом.
значуще значення

Але в цілому ви можете підходити до t-розподілу, який є більш стійким до сторонніх речовин, або суміші т-розподілів. Я впевнений, що тут є багато робіт, ось один документ від Bishop research.microsoft.com/en-us/um/people/cmbishop/downloads/…, і ось R-пакет для суміші сумішей: maths.uq.edu. au / ~ gjm / mix_soft / EMMIX_R / EMMIX-manual.pdf
означає до значення

1
Ваш справедливо для нормально розподіленого населення, але не для більшості інших розподілівσ=MAD1.4826
Генрі

Відповіді:


10

Байєсівський висновок в T-шумовій моделі з відповідним попереднім дасть надійну оцінку місця та масштабу. Точні умови, які вірогідність та попередня потреба повинні задовольнити, наведені в роботі Байєсового моделювання стійкості параметрів розташування та масштабу за Андраде та О'Хаганом (2011). Оцінки є надійними в тому сенсі, що одне спостереження не може зробити оцінки довільно великими, як показано на малюнку 2 статті.

Коли дані зазвичай розподіляються, SD вбудованого розподілу T (для фіксованого ) не відповідає SD породжуваного розподілу. Але це легко виправити. Нехай - це стандартне відхилення породжуючого розподілу, а - стандартне відхилення пристосованого розподілу T. Якщо дані масштабуються на 2, то з форми ймовірності ми знаємо, що повинен масштабуватися на 2. Це означає, що для деякої фіксованої функції . Цю функцію можна обчислити чисельно, моделюючи зі стандартної норми. Ось код для цього:νσsss=σf(ν)f

library(stats)
library(stats4)
y = rnorm(100000, mean=0,sd=1)
nu = 4
nLL = function(s) -sum(stats::dt(y/s,nu,log=TRUE)-log(s))
fit = mle(nLL, start=list(s=1), method="Brent", lower=0.5, upper=2)
# the variance of a standard T is nu/(nu-2)
print(coef(fit)*sqrt(nu/(nu-2)))

Наприклад, при я отримую . Бажаним оцінювачем є .ν=4f(ν)=1.18σ^=s/f(ν)


1
Приємна відповідь (+1). "в тому сенсі, що одне спостереження не може зробити оцінки довільно великими", тому точка розбиття становить 2 / n (мені було цікаво про це) .... Як порівняння, для процедури, проілюстрованої у моїй відповіді, це п / 2.
user603

Нічого, дякую! Нечітке запитання. Чи було б тоді насправді мати сенс "виправити" шкалу, щоб вона відповідала SD у звичайному випадку? Випадок використання, про який я думаю, - це коли повідомляю про міру поширення. У мене не було б проблем із масштабом звітування, але було б непогано повідомити про щось, що б відповідало SD, оскільки це найпоширеніший показник поширення (принаймні, в психології). Чи бачите ви ситуацію, коли ця корекція призвела б до дивних і суперечливих оцінок?
Rasmus Bååth

6

Оскільки ви ставите питання про дуже точну проблему (ґрунтовна оцінка), я запропоную вам не менш точну відповідь. По-перше, проте я почну намагатися розвіяти необґрунтоване припущення. Неправда, що існує надійна байєсівська оцінка місця розташування (є байєсові оцінки місцеположень, але, як я ілюструю нижче, вони не є надійними, і, мабуть , навіть найпростіший надійний оцінювач місцеположення не є байєсівським). На мою думку, причини відсутності перекриття між парадигмою «байєсів» та «надійна» у випадку локалізації далеко не пояснюють, чому також немає оцінок розкидання, які є надійними та байєсовими.

З відповідними пріорами на та , буде оцінкою середнього значення яке буде надійним щодо інших людей.m,sνmyi

Власне, ні. Отримані оцінки будуть надійними лише в дуже слабкому сенсі цього слова robust. Однак, коли ми кажемо, що медіана є надійною для людей, що переживають люди, ми маємо на увазі слово robust у набагато сильнішому значенні. Тобто, в надійній статистиці стійкість медіани посилається на властивість, що якщо ви обчислите медіану на наборі даних спостережень, виведених з одномодальної, безперервної моделі, а потім заміните менше половини цих спостережень на довільні значення , значення медіани, обчисленої на забруднених даних, близька до значення, яке було б, якби ви його обчислили на оригінальному (незабрудненому) наборі даних. Тоді легко показати, що стратегія оцінювання, яку ви пропонуєте в цитуваному вище абзаці, точно не є міцний у сенсі того, як слово зазвичай розуміється для медіани.

Мені незнайомий байєсівський аналіз. Однак мені було цікаво, що не так із наступною стратегією, оскільки вона здається простою, ефективною та ще не була розглянута в інших відповідях. Попереднім є те, що значна частина даних береться за симетричного розподілу і що рівень забруднення становить менше половини. Тоді, простою стратегією було б:F

  1. обчислити медіану / божевілля вашого набору даних. Тоді обчисліть:
    zi=|ximed(x)|mad(x)
  2. виключаємо спостереження, для яких (це квантиль розподілу коли ). Ця кількість доступна для багатьох варіантів вибору і може бути завантажена для інших.α z x F Fzi>qα(z|xF)αzxFF
  3. Проведіть (звичайний, ненадійний) байєсівський аналіз на не відхилених спостереженнях.

Редагувати:

Завдяки ОП за надання автономного коду R для проведення добросовісного байєсівського аналізу проблеми.

наведений нижче код порівнює байєсівський підхід, запропонований ОП, і його альтернативу з надійної статистичної літератури (наприклад, метод підгонки, запропонований Гауссом для випадку, коли дані можуть містити стільки, скільки вибухів і розподіл значна частина даних - Гаусса).n/22

Центральна частина даних - :N(1000,1)

n<-100
set.seed(123)
y<-rnorm(n,1000,1)

Додайте деяку кількість забруднень:

y[1:30]<-y[1:30]/100-1000 
w<-rep(0,n)
w[1:30]<-1

індекс w приймає значення 1 для залишків. Я починаю з підходу, запропонованого ОП:

library("rjags")
model_string<-"model{
  for(i in 1:length(y)){
    y[i]~dt(mu,inv_s2,nu)
  }
  mu~dnorm(0,0.00001)
  inv_s2~dgamma(0.0001,0.0001)
  s<-1/sqrt(inv_s2)
  nu~dexp(1/30) 
}"

model<-jags.model(textConnection(model_string),list(y=y))
mcmc_samples<-coda.samples(model,"mu",n.iter=1000)
print(summary(mcmc_samples)$statistics[1:2])
summary(mcmc_samples)

Я отримав:

     Mean        SD 
384.2283  97.0445 

і:

2. Quantiles for each variable:

 2.5%   25%   50%   75% 97.5% 
184.6 324.3 384.7 448.4 577.7 

(тихо, таким чином, від цільових значень)

Для надійного методу

z<-abs(y-median(y))/mad(y)
th<-max(abs(rnorm(length(y))))
print(c(mean(y[which(z<=th)]),sd(y[which(z<=th)])))

один отримує:

 1000.149 0.8827613

(дуже близько до цільових значень)

Другий результат набагато ближче до реальних цінностей. Але стає найгірше. Якщо класифікувати як споживачі ті спостереження, для яких оцінений -score більший (пам’ятайте, що попереднє, що - гауссова), то байєсівський підхід виявляє, що всі спостереження є пережилими людьми ( навпаки, надійна процедура відзначає все і тільки люди, що відпадають як такі). Це також означає, що якщо вам слід було провести звичайний (не надійний) байєсівський аналіз даних, які не класифікуються як пережиті в рамках надійної процедури, вам слід добре (наприклад, виконати цілі, зазначені у вашому запитанні).zthF
Це лише приклад, але насправді досить просто показати, що (і це можна зробити формально, див., Наприклад, у розділі 2 [1]) параметри розподілу студента пристосованого до забруднених даних, не можуть залежати від виявлення пережиті люди. t

  • [1] Рікардо А. Маронна, Дуглас Р. Мартін, Віктор Дж. Йохай (2006). Надійна статистика: теорія та методи (Серія Wiley в "Імовірність та статистика").
  • Huber, PJ (1981). Надійна статистика Нью-Йорк: Джон Вілей і сини.

1
Ну, t часто пропонується як надійна альтернатива нормальному розподілу. Я не знаю, чи це в слабкому сенсі чи ні. Див. Наприклад: Lange, KL, Little, RJ, & Taylor, JM (1989). Надійна статистичне моделювання з використанням розподілу t. Журнал Американської статистичної асоціації , 84 (408), 881-896. pdf
Rasmus Bååth

1
Це слабкий сенс. Якщо у вас є код R, який реалізує запропоновану вами процедуру, я буду радий проілюструвати свою відповідь на прикладі. інакше ви можете отримати більше пояснень у главі 2 цього підручника.
користувач603

Я пропоную запропоновану процедуру в основному тут: indiana.edu/~kruschke/BEST, включаючи R-код. Мені доведеться подумати про ваше рішення! Однак це не здається байєсівським у тому сенсі, що він не моделює всі дані, а лише підмножина, яка "виживає" крок 2.
Расмус Бает

Дякую за цікаву дискусію! Ваша відповідь не в тому, що я прагну, тому що (1) ви не описуєте байєсівську процедуру, ви описуєте більше кроку підготовки даних про те, як видалити інші люди (2) ваша процедура не призводить до послідовного оцінювання SD , тобто якщо ви взяли вибірку з нормального розподілу та кількості точок даних ви не наблизитесь до "справжнього" SD, швидше ваша оцінка буде дещо низькою. Я також не повністю купую ваше визначення надійного (ваше визначення не таке, як я його бачив у більшості байесівських літератур, з якими я натрапив)
Расмус Бет

1
Я зараз це зробив!
Rasmus Bååth

1

У байєсівському аналізі з використанням зворотного розподілу гамми як попереднього для точності (обернення дисперсії) є загальним вибором. Або обернене розподіл Вішарта для багатоваріантних моделей. Додавання переваги до дисперсії покращує стійкість до людей, що втрачають силу.

Є приємний документ Ендрю Гелмана: "Попередні розподіли для параметрів дисперсії в ієрархічних моделях", де він обговорює, якими можуть бути хороші варіанти пріорів щодо варіацій.


4
Вибачте, але я не бачу, як це відповідає на питання. Я не просив надійну попередню, а скоріше про надійну модель .
Rasmus Bååth

0

Надійний оцінювач для параметра розташування деякого набору даних розміру отримується, коли призначається Джеффрі перед дисперсією від звичайного розподілу, і обчислює граничне значення для , отримуючи розподіл з градусів свободи.μNσ2μtN

Аналогічно, якщо ви хочете отримати надійний оцінювач для стандартного відхилення деяких даних , ми можемо зробити наступне:σD

По-перше, ми припускаємо, що дані зазвичай розподіляються, коли відомі її середнє та стандартне відхилення. Тому а якщо то , де достатні статистики і є Крім того, використовуючи теорему Байєса, маємо Зручним пріоритетом для є сім'я Normal-investise-gamma

D|μ,σN(μ,σ2)
D(d1,,dN)
p(D|μ,σ2)=1(2πσ)Nexp(N2σ2((mμ2)+s2))
ms2
m=1Ni=1Ndis2=1Ni=1Ndi2m2
p(μ,σ2|D)p(D|μ,σ2)p(μ,σ2)
(μ,σ2), яка охоплює широкий спектр форм і сполучається з цією ймовірністю. Це означає, що задній розподіл все ще належить до сімейства нормально-зворотних гамма, а його граничний є оберненим гамма-розподілом, параметризованим як Від цього розподілу, ми можемо взяти режим, який дасть нам оцінку для . Цей оцінювач буде більш-менш толерантним до невеликих екскурсій від помилок на моделі, змінюючи та / абоp(μ,σ2|D)p(σ2|D)σ 2 α β t μ
σ2|DIG(α+N/2,2β+Ns2)α,β>0
σ2αβ. Дисперсія цього розподілу надасть деяку вказівку на відмовостійкість оцінки. Оскільки хвости оберненої гами напівважкі, ви отримуєте таку поведінку, яку б ви очікували від оцінки розподілу для яку ви згадуєте.tμ

1
"Надійний оцінювач для параметра розташування μ деякого набору даних розміру N отримується, коли призначається Джеффрі до дисперсії від звичайного розподілу." Хіба це не нормальна модель, яку ви описуєте типовим прикладом ненадійної моделі? Тобто, одне значення, яке вимкнено, може мати великий вплив на параметри моделі. Існує велика різниця між задньою середньою величиною, що є t-розподілом (як у вашому випадку), і розподілом для даних, що є t-розподілом (як це поширений приклад надійної байєсівської моделі оцінки середнього значення). σ2
Rasmus Bååth

1
Все залежить від того, що ви маєте на увазі під надійним. Що ви зараз говорите, це те, що ви хочете отримати надійні дані WRT. Що я пропонував, - це неправильна специфікація моделі wrt. Вони обидва різних видів стійкості.
yannick

2
Я б сказав, що приклади, які я наводив, MAD та використання при розподілі як розподіл для даних, є прикладами надійності щодо даних.
Rasmus Bååth

Я б сказав, що Расмус має рацію, так би і Гельман ер в BDA3, як і базове розуміння того, що в t-дистрибуції є жирніші хвости, ніж нормальні для того ж параметру розташування
Brash Equilibrium

0

Я стежив за обговоренням з початкового питання. Rasmus, коли ви говорите про стійкість, я впевнений, що ви маєте на увазі в даних (аутлієри, а не пропустіть специфікацію розподілів). Я візьму розподіл даних як розподіл Лапласа замість t-розподілу, тоді як у звичайній регресії, де ми моделюємо середнє значення, тут ми будемо моделювати медіану (дуже міцну) ака середню регресію (ми всі знаємо). Нехай модель буде:

Y=βX+ϵ , має місце .ϵ(0,σ2)

Звичайно, наша мета - оцінити параметри моделі. Ми очікуємо, що наші пріори будуть невиразними, щоб мати об'єктивну модель. Модель, що знаходиться під рукою, має задню частину форми . Надання нормального перед великою дисперсією робить таке попереднє розпливчасте, а чіс-квадрат перед малим ступенем свободи для імітації попереднього Джеффрі (розпливчастий до цього) надаєтьсяf(β,σ,Y,X)βσ2. Що з пробовідбірником Гіббса що відбувається? нормальний попередній + імовірність laplace = ???? ми знаємо. Також чи-квадрат попереднього + вірогідність лапласа = ??? ми не знаємо розподілу. На щастя для нас, існує теорема в (Аслан, 2010), яка перетворює вірогідність лапланату в масштабну суміш нормальних розподілів, яка дозволяє нам насолоджуватися сполученими властивостями наших пріорів. Я думаю, що весь описаний процес є повністю надійним з точки зору людей, що втрачають силу. У мультиваріантній обстановці чи-квадрат перетворюється на розподіл по вісхартах, і ми використовуємо багатоваріантний розподіл лапла і нормального розподілу.


2
Здається, ваше рішення орієнтоване на надійну оцінку місця розташування (середня / середня). Моє запитання було швидше щодо оцінки масштабу з властивістю узгодженості відносно отримання SD, коли розподіл даних, що генерують фактично, є нормальним.
Rasmus Bååth

Завдяки надійній оцінці місцеположення, масштаб як функція місця негайно виграє від надійності розташування. Немає іншого способу зробити масштаб надійним.
Чемберлен Фонша

У будь-якому разі, я мушу сказати, що я з нетерпінням чекаю, як побачити, як вирішити цю проблему найбільше, особливо при нормальному розподілі, як ви наголосили.
Чемберлен Фонча

0

Припустимо, у вас є групи, і ви хочете моделювати розподіл їх вибіркових варіацій, можливо, стосовно деяких коваріатів . Тобто припустимо, що вашою точкою даних для групи є . Тут питання: "Що є надійною моделлю для ймовірності варіації вибірки?" Один із способів наблизитись до цього - це моделювати перетворені дані як такі, що надходять із розподілу, який, як ви вже згадували, є надійною версією звичайного розподілу. Якщо вам не здається припустити, що перетворена дисперсія приблизно нормальна, якKxk1KVar(yk)[0,)ln[Var(yk)]tn, тоді ви можете вибрати розподіл ймовірності з позитивною реальною підтримкою, яка, як відомо, має важкі хвости порівняно з іншим розподілом з тим же місцем розташування. Наприклад, є нещодавня відповідь на питання Cross Validated про те, чи має лонормальний або гамма-розподіл більш важкі хвости, і виявляється, що лонормальний розподіл є (завдяки @Glen_b за цей внесок). Окрім того, ви могли дослідити напівфашинську родину.

Подібні міркування застосовуються, якщо замість цього ви призначаєте попередній розподіл за параметром масштабу для нормального розподілу. Тангенціально лонормальні та зворотні гамма-розподіли не бажані, якщо ви хочете сформувати межу, уникаючи попереднього для наближення заднього режиму, оскільки вони різко досягають максимуму, якщо параметризувати їх так, щоб режим був майже до нуля. Див. Розділ 13 BDA3 для обговорення. Тож крім визначення надійної моделі з точки зору товщини хвоста, майте на увазі, що куртоз може мати значення і для вашого висновку.

Я сподіваюся, що це допоможе вам настільки, наскільки мені допомогла ваша відповідь на одне з моїх останніх питань.


1
Моє запитання стосувалося ситуації, коли у вас є одна група, і як грубо оцінити масштаби цієї групи. Що стосується людей, що не люблять людей, я не вважаю, що дисперсія вибірки вважається надійною.
Rasmus Bååth

Якщо у вас є одна група, і ви оцінюєте її нормальний розподіл, то ваше запитання стосується форми попереднього параметра, що перевищує його масштаб. Як випливає з моєї відповіді, ви можете використовувати при розподілі за її перетворення журналу або вибирати жирову хворобу з позитивною реальною підтримкою, уважно ставлячись до інших аспектів цього розподілу, таких як його куртоз. Підсумок, якщо ви хочете отримати надійну модель для параметра масштабу, використовуйте при розподілі його перетворення журналу або інший жировий розподіл.
Brash Equilibrium
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.