Перевірка залишків на нормальність в узагальнених лінійних моделях


12

У цій роботі використовуються узагальнені лінійні моделі (як біноміальні, так і негативні розподіли біноміальних помилок) для аналізу даних. Але потім у розділі статистичного аналізу методів є таке твердження:

... і по-друге, моделюючи дані про наявність за допомогою моделей логістичної регресії та дані про час збирання за допомогою узагальненої лінійної моделі (GLM). Для моделювання даних про час фуражування (Welsh et al., 1996) було використано негативне біноміальне розподіл з функцією зв’язку журналу, а адекватність моделі була перевірена за допомогою дослідження залишків (McCullagh & Nelder, 1989). Для перевірки нормальності залежно від розміру вибірки використовували тести Шапіро – Вільк або Колмогоров – Смірнов; дані були перетворені в журнал перед аналізами для дотримання нормальності.

Якщо вони припускають розподіл біноміальних та негативних біноміальних помилок, то, напевно, вони не повинні перевіряти нормальність залишків?


2
Зауважте, що помилки не є біноміально розподіленими - кожна відповідь розподіляється біноміально з параметром ймовірності, заданим відповідними значеннями прогноктора, відповідно до відповідей на одне з ваших інших питань .
Scortchi

3
Біноміальна або негативна біноміальна регресія не має нічого, ніж це повинно бути нормальним. Якщо це відповідь, яку вони трансформують, це може бути дуже контрпродуктивним; це викрутить GLM.
Glen_b -Встановіть Моніку

1
З вашої цитати не зрозуміло, що вони насправді перевіряють на нормальність (ви впевнені, що це залишки?) Або для якого аналізу вони перетворюють дані (ви впевнені, що це ГЛМ?).
Scortchi

Я трохи розширив цитату. Чи може хтось підтвердити, якщо те, що зробили автори статті, було неправильним чи правильним?
luciano

Боюся, це все ще не дуже зрозуміло - зв’яжіться з авторами для отримання детальної інформації про те, як вони провели аналіз, якщо це не пояснено в іншому документі чи його посиланнях.
Scortchi

Відповіді:


16

iyi

riD=2|log(1π^i)|

yi=0

riD=2|log(π^i)|

yi=1πi^

#generate Bernoulli probabilities from true model
x <-rnorm(100)
p<-exp(x)/(1+exp(x))

#one replication per predictor value
n <- rep(1,100)
#simulate response
y <- rbinom(100,n,p)
#fit model
glm(cbind(y,n-y)~x,family="binomial") -> mod
#make quantile-quantile plot of residuals
qqnorm(residuals(mod, type="deviance"))
abline(a=0,b=1)

Діаграма QQ n = 1

nii

riD=sgn(yiniπ^i)2[yilogyinπ^i+(niyi)logniyini(1π^i)]

yinini

#many replications per predictor value
n <- rep(30,100)
#simulate response
y<-rbinom(100,n,p)
#fit model
glm(cbind(y,n-y)~x,family="binomial")->mod
#make quantile-quantile plot of residuals
qqnorm(residuals(mod, type="deviance"))
abline(a=0,b=1)

Діаграма QQ n = 30

Речі схожі на Пуассона або негативні біноміальні ГЛМ: для низьких прогнозованих підрахунків розподіл залишків є дискретним і перекошеним, але, як правило, для більшої кількості за правильно заданою моделлю.

Не звичайно, принаймні не в моїй шиї лісу, проводити офіційний тест на залишкову нормальність; якщо тестування на нормальність по суті марно, коли ваша модель припускає точну нормальність, то atiotiori це марно, коли цього не відбувається. Тим не менш, для ненасичених моделей графічна залишкова діагностика є корисною для оцінки наявності та характеру нестачі придатності, прийняття нормальності за допомогою щіпки або жменю солі залежно від кількості повторів на рисунок прогнозу.


1

Те, що вони зробили, правильно! Я дам вам посилання на подвійну перевірку. Дивіться Розділ 13.4.4 Вступу до лінійного регресійного аналізу, 5-е виданняДуглас К. Монтгомері, Елізабет А. Пек, Г. Джеффрі Вінінг. Зокрема, подивіться приклади на сторінці 460, де вони вміщують біноміальний glm та двічі перевіряють припущення щодо нормальності "Залишків відхилення". Як згадувалося на сторінці 458, це пояснюється тим, що "залишки відхилення поводяться так, як це роблять звичайні залишки в стандартній лінійній регресійній моделі нормальної теорії". Отже, це має сенс, якщо ви розміщуєте їх у нормальній шкалі вірогідності графіку, а також проти встановлених значень. Ще раз див. Сторінку 456 вище посилання. У прикладах, які вони наводили на сторінках 460 та 461, не тільки для двочленного випадку, але також і для Poisson glm та Gamma з (link = log) вони перевірили нормальність залишків відхилень.
Для двочленного випадку залишковий відхилення визначається як:

riD=2|ln(1πi^)|
yi=0
riD=2|ln(πi^)|
yi=1
> attach(npk)

> #Fitting binomila glm
> fit.1=glm(P~yield,family=binomial(logit))
> 
> #Getting deviance residuals directly
> rd=residuals(fit.1,type = c("deviance"))
> rd
         1          2          3          4          5          6          7 
 1.1038306  1.2892945 -1.2912991 -1.1479881 -1.1097832  1.2282009 -1.1686771 
         8          9         10         11         12         13         14 
 1.1931365  1.2892945  1.1903473 -0.9821829 -1.1756061 -1.0801690  1.0943912 
        15         16         17         18         19         20         21 
-1.3099491  1.0333213  1.1378369 -1.2245380 -1.2485566  1.0943912 -1.1452410 
        22         23         24 
 1.2352561  1.1543163 -1.1617642 
> 
> 
> #Estimated success probabilities
> pi.hat=fitted(fit.1)
> 
> #Obtaining deviance residuals directly
> rd.check=-sqrt(2*abs(log(1-pi.hat)))
> rd.check[P==1]=sqrt(2*abs(log(pi.hat[P==1])))
> rd.check
         1          2          3          4          5          6          7 
 1.1038306  1.2892945 -1.2912991 -1.1479881 -1.1097832  1.2282009 -1.1686771 
         8          9         10         11         12         13         14 
 1.1931365  1.2892945  1.1903473 -0.9821829 -1.1756061 -1.0801690  1.0943912 
        15         16         17         18         19         20         21 
-1.3099491  1.0333213  1.1378369 -1.2245380 -1.2485566  1.0943912 -1.1452410 
        22         23         24 
 1.2352561  1.1543163 -1.1617642 
> 

Перевірте тут для випадку Пуассона , а також.


2
Ваш приклад - це незвичайний вибір. Чи ви зробити PP або QQ сюжет цих девіацій залишків; якщо так, то що ви зробили?
Scortchi

5
Справа в тому, що в цьому випадку не було б сенсу перевіряти нормальність залишків - вони явно не є нормально розподіленими, як і не повинні. Це лише те, що кількість спостережень за кожною схемою прогнозування збільшується, що розподіл залишків (один залишок, що обчислюється за закономірністю прогнозу), має тенденцію до норми. Аналогічно для пуассонової або негативної біноміальної моделі - рахунки повинні бути великими, щоб нормальне наближення було хорошим.
Scortchi

2
Питання полягає в тому, чи слід нормально розподіляти залишки узагальнених лінійних моделей. Ваша відповідь, як видається, є некваліфікованим «так» (хоча ваші джерела, безперечно, дають необхідну кваліфікацію, не кожен читач перевірятиме їх). Потім ви наводите приклад, в якому взагалі немає підстав очікувати нормального розподілу залишків, навіть якщо модель була вказана правильно: необережний читач припустить, що вони повинні бути & що, як їх явно немає, це тому приклад виявлення неправильної специфікації моделі за допомогою вивчення залишків (хоча ви ...
Scortchi - Reinstate Monica

2
... не говорив, що так). Тому я думаю, що відповідь потребує багато роз’яснень, щоб бути корисним.
Scortchi

2
Коментарі IMO @ Scortchi тут є розумними. Дивлячись на те, що я бачу у книзі Монтгомері на попередньому перегляді книг google, вони роблять графік QQ, але не виконують фактичного тесту на нормальність, як зазначено в оригінальному плакаті. Зрозуміло, що скласти графік QQ є розумним як діагностичний тест, але в майже всіх реалістичних обставинах навіть відхилення зберігається. не буде нормальним.
Andy W
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.