Гетероскедастичність і нормальність залишків


12

Я маю лінійну регресію, що досить добре, я думаю (це для університетського проекту, тому я не повинен бути дуже точним).

Справа в тому, що якщо я побудую залишки проти передбачуваних значень, є (на думку мого вчителя) натяк на гетероскдастичність.

Але якщо я побудую QQ-графік залишків, зрозуміло, що вони зазвичай розподіляються. Більше того, тест Шапіро на залишки має значення , тому, я думаю, немає сумнівів, що залишки фактично нормально розподілені.p0,8

Питання: Яким чином може бути гетерокедастичність щодо прогнозованих значень, якщо залишки нормально розподіляються?


1
Одне дуже коротке доповнення до відмінної відповіді @whubers: Ви можете скористатися ncvTestфункцією автомобільного пакета для Rпроведення офіційного тесту на гетероседастичність. У прикладі Уубера команда ncvTest(fit)дає значення, що майже дорівнює нулю, і надає вагомі докази проти постійної дисперсії помилок (що, звичайно, очікувалося). p
COOLSerdash

Відповіді:


16

Один із способів підійти до цього питання - це поглянути на зворотне: як ми могли почати з нормально розподілених залишків і організувати їх як гетеросептичні? З цієї точки зору відповідь стає очевидною: асоціюйте менші залишки з меншими прогнозованими значеннями.

Для ілюстрації, тут явна конструкція.

Малюнок

Дані ліворуч явно гетероскедастичні щодо лінійного прилягання (показані червоним кольором). Це спрямовано додому залишками та передбачуваним сюжетом праворуч. Але - за конструкцією - не упорядкований набір залишків близький до нормально розподілених, як показує їх гістограма посередині. (Значення р у тесті Шапіро-Вілка на нормальність дорівнює 0,60, отримане за допомогою Rкоманди, shapiro.test(residuals(fit))виданої після запуску коду нижче.)

Реальні дані також можуть виглядати так. Мораль полягає в тому, що гетероскедастичність характеризує залежність між залишковими розмірами і прогнозами, тоді як нормальність нічого не говорить про те, як залишки відносяться до чогось іншого.


Ось Rкод цієї конструкції.

set.seed(17)
n <- 256
x <- (1:n)/n                       # The set of x values
e <- rnorm(n, sd=1)                # A set of *normally distributed* values
i <- order(runif(n, max=dnorm(e))) # Put the larger ones towards the end on average
y <- 1 + 5 * x + e[rev(i)]         # Generate some y values plus "error" `e`.
fit <- lm(y ~ x)                   # Regress `y` against `x`.
par(mfrow=c(1,3))                  # Set up the plots ...
plot(x,y, main="Data", cex=0.8)
abline(coef(fit), col="Red")
hist(residuals(fit), main="Residuals")
plot(predict(fit), residuals(fit), cex=0.8, main="Residuals vs. Predicted")

2
Ок, ви кажете, що якщо я пов’язую низькі залишки з високими прогнозованими значеннями, гетероскедастичність може виникнути, навіть якщо залишки нормально розподіляються? Я думаю, що я це отримав, хоча я дійсно повинен більше про це думати .. як би то не було спасибі!
Ant Ant

... або низькі залишки з низькими прогнозованими значеннями (як у прикладі тут), або навіть більш складними способами. Наприклад, гетероскедастичність існує тоді, коли середня величина залишків коливається з передбачуваним значенням. (Більшість формальних тестів на гетероседастичність цього не виявлять, але звичайні діагностичні графіки це чітко показують.)
whuber

0

У регресії найменших зважених квадратів (WLS) випадкові коефіцієнти оцінених залишків, які ви, можливо, хочете бачити, як правило, розподіляються, хоча це часто не дуже важливо. Оцінені залишки можуть бути враховані, як показано у простому (один регресор і через походження) регресійний випадок, внизу сторінки 1, і нижній половині сторінок 2 та 7 в https://www.researchgate.net/publication / 263036348_Properties_of_Weighted_Least_Squares_Regression_for_Cutoff_Sampling_in_Establishment_Surveys Як би там не було, це може допомогти показати, де нормальність може потрапити в картину.


Ласкаво просимо на сайт, @JimKnaub. Ми хотіли б, щоб ви поруч надавали свою експертизу на випадкові запитання. Чому б не зареєструвати свій рахунок? Дізнатися про це можна в розділі Мій обліковий запис нашого довідкового центру . Оскільки ви тут новачок, ви можете скористатися нашою екскурсією , де є інформація для нових користувачів.
gung - Відновіть Моніку

3
Ми намагаємось створити постійний сховище якісної статистичної інформації у вигляді запитань та відповідей. Таким чином, ми насторожено ставимося до відповідей, які залежать від посилань, завдяки linkrot. Чи можете ви опублікувати повне цитування та резюме інформації (наприклад, цифри / пояснення) за посиланням, щоб інформація залишалася корисною, навіть якщо посилання загине?
gung - Відновити Моніку
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.