Інтерпретація графіку залишків проти встановлених значень з регресії Пуассона


25

Я намагаюся вписати дані в GLM (пуассонова регресія) в Р. Коли я побудував залишки проти встановлених значень, графік створив кілька (майже лінійних із невеликою увігнутою кривою) "лінії". Що це означає?

library(faraway)
modl <- glm(doctorco ~ sex + age + agesq + income + levyplus + freepoor + 
            freerepa + illness + actdays + hscore + chcond1 + chcond2,
            family=poisson, data=dvisits)
plot(modl)

введіть тут опис зображення


Я не знаю, чи можете ви завантажити сюжет (іноді новачки не можуть), але якщо ні, чи можете ви хоча б додати до свого запитання якісь дані та код R, щоб люди могли його оцінити?
gung - Відновіть Моніку

Джоселін, я оновив вашу публікацію інформацією, яку ви виклали в коментарі. Я також позначив це так, homeworkяк ви говорили про завдання.
chl

спробуйте сюжет (тремтіння (mod1)), щоб побачити, чи графік трохи читабельніший. Чому б вам не визначити залишки для нас і не дати нам найкращі здогадки як інтерпретувати графік.
Михайло Єпископ

1
Із запитання я збираюся припустити, що ви розумієте розподіл Пуассона та реєстру Пуаса, і що розповідає вам графік залишків проти встановлених значень (оновіть, якщо це неправильно), таким чином, ви просто цікавитеся про дивний вигляд балів у сюжеті. Оскільки це домашнє завдання, ми не відповідаємо як загальна політика, але надаємо підказки. Я помічаю, що у вас багато коваріатів, мені цікаво, чи є у вас 1 безперервний та багато бінарних коваріатів.
gung - Відновити Моніку

1
Два коментарі від коментаря Гунга. Спочатку спробуйте table(dvisits$doctorco). Що відповідають 10 вигнутих ліній на вашому сюжеті у цій таблиці? Крім того, при перевищенні 5000 спостережень, не переживайте над тим, щоб відповідати 13 коефіцієнтам регресії.
гість

Відповіді:


29

Це поява, яку ви очікуєте від такого сюжету, коли залежна змінна є дискретною.

куу=ку^к-у^к-у^у^-1журнал(у^)ку

Ми можемо відтворити розглянутий сюжет досить близько за допомогою подібної, але довільної моделі (використовуючи невеликі випадкові коефіцієнти):

# Create random data for a random model.
set.seed(17)
n <- 2^12                       # Number of cases
k <- 12                         # Number of variables
beta = rnorm(k, sd=0.2)         # Model coefficients
x <- matrix(rnorm(n*k), ncol=k) # Independent values
y <- rpois(n, lambda=exp(-0.5 + x %*% beta + 0.1*rnorm(n)))

# Wrap the data into a data frame, create a formula, and run the model.
df <- data.frame(cbind(y,x))    
s.formula <- apply(matrix(1:k, nrow=1), 1, function(i) paste("V", i+1, sep=""))
s.formula <- paste("y ~", paste(s.formula, collapse="+"))
modl <- glm(as.formula(s.formula), family=poisson, data=df)

# Construct a residual vs. prediction plot.
b <- coefficients(modl)
y.hat <- x %*% b[-1] + b[1]     # *Logs* of the predicted values
y.res <- y - exp(y.hat)         # Residuals
colors <- 1:(max(y)+1)          # One color for each possible value of y
plot(y.hat, y.res, col=colors[y+1], main="Residuals v. Fitted")

Залишки проти пристосованих


6
(+1) Колір проходить довгий шлях у показі того, що відбувається.
кардинал

Так це стосується вищезазначеного сюжету? Тексти (Статистичне моделювання для біомедичних дослідників: просте вступ до аналізу складних даних, Дюпон, 2002, стор. 316, наприклад) вказують, що пристосований проти залишкової ділянки повинен бути зосереджений на нульовій залишковій лінії, а будь-який вентилятор (якщо він є сировиною залишки) чи ні (якщо відхилення, наприклад). Маючи обмежений діапазон підрахунків у змінній результату, ви отримуєте ці смуги, і, як у вищенаведеному сюжеті, вони не зосереджені навколо лінії у y = 0. Як ми знаємо залишковий графік ОП (або приклад сюжету зроблено у цій відповіді) вказує, що модель добре відповідає даним?
Мег

1
@Meg Ця порада безпосередньо не стосується залишків GLM. Зауважте, що модель, яка використовується для ілюстрації цієї відповіді, як відомо, є правильною, оскільки вона використовується для створення даних.
whuber

1/2: Дякую @whuber. Я розумію, що для цієї відповіді модель, як відомо, була правильною, оскільки дані були змодельовані із заданого розподілу, але на практиці це невідомо (як на посаді ОП). Крім того, те, що я писав про залишки , стосується регресії POI (не для всіх GLM, ні, але ця) - я посилався, зокрема, на обговорення регресії POI. Я бачив лише тексти, на яких зображені стандартизовані залишки POI (Пірсон або відхилення, наприклад), орієнтовані на y = 0, тому я не впевнений, що мені слід шукати, тому що для цієї моделі (що, очевидно, правильно) сюжет виглядає нічого подібного.
Мег

2/2: Чи є у вас посилання на посилання, яке детальніше обговорює залишки POI?
Мег

8

Іноді смуги, подібні цій, на залишкових ділянках представляють точки з (майже) однаковими спостережуваними значеннями, які отримують різні прогнози. Подивіться на цільові значення: скільки унікальних значень вони? Якщо моя пропозиція правильна, у вашому наборі даних про навчання має бути 9 унікальних значень.


1
0,1,,9

-3

Ця закономірність характерна для неправильної відповідності сім'ї та / або зв'язку. Якщо у вас є завищені дані, то, можливо, вам слід врахувати негативні біноміальні (лічильні) або гамма (безперервні) розподіли. Крім того, ви повинні побудувати свої залишки проти перетвореного лінійного предиктора, а не провісниками при використанні узагальнених лінійних моделей. Для перетворення провісника Пуассона потрібно взяти 2 рази квадратний корінь лінійного предиктора і побудувати проти цього свої залишки. Залишки більше не повинні бути виключно залишками персона, спробуйте залишки відхилень та шпильки.


3
Чому вдвічі більший квадратний корінь, коли канонічна ланка сімейства пуассонів у glm - це журнал? Чи не повинен це бути exp () лінійного предиктора? Але я не бачу, яка проблема полягає в побудові залишків щодо самого лінійного прогноктора, що, на мою думку, саме тут робиться - можливо, ви могли б розширити це.
Пітер Елліс

Ви не проти пояснити, який саме аспект "шаблону" привертає вашу увагу до можливої ​​неправильної специфікації моделі, Райан? Це здається тонкою справою, але потенційно є важливим розумінням.
whuber
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.