Заходи гетероскедастичності залишків


16

Це посилання на вікіпедію перераховує низку методів виявлення гетероскедастичності залишків OLS. Мені хотілося б дізнатися, яка практична методика є більш ефективною для виявлення регіонів, постраждалих від гетеросцедастичності.

Наприклад, тут центральний регіон у сюжеті OLS «Залишки проти пристосованого» має більшу дисперсію, ніж сторони сюжету (я не зовсім впевнений у фактах, але припустимо, що це справа заради питання). Для підтвердження, дивлячись на мітки помилок у графіці QQ, ми можемо побачити, що вони відповідають позначкам помилок у центрі графіку Залишків.

Але як можна кількісно оцінити область залишків, яка має значно більшу дисперсію?

гетеросцедастичність


2
Я не впевнений, що ти маєш рацію, що в середині вища дисперсія. Той факт, що люди, що живуть у центральному регіоні, мені здається результатом того, що саме там знаходиться більшість даних. Звичайно, це не скасовує ваше запитання.
Пітер Елліс

1
Qqplot призначений для виявлення ненормальності розподілу, а не неоднорідних дисперсій безпосередньо.
Майкл Р. Черник

@PeterEllis Так, я вказав у питанні, що я не впевнений, що дисперсія відрізняється, але я мав цю діагностичну картину під рукою, і насправді в прикладі може бути деяка гетероцесдастичність.
Роберт Кубрик

@MichaelChernick Я лише згадав qqplot, щоб проілюструвати, як, здається, найвищі помилки концентруються посередині графіку залишків, отже, це потенційно вказує на більшу дисперсію в цій області.
Роберт Кубрик

Відповіді:


15

Ця проблема має дослідницьке відчуття до неї. Джон Тукі описує безліч процедур дослідження гетероседастичності у своєму класичному дослідницькому аналізі даних (Аддісон-Уеслі 1977). Мабуть, найбільш безпосередньо корисним є варіант його « мандрівного схематичного сюжету ». Це розрізає одну змінну (наприклад, передбачуване значення) у бункери та використовує m-літерні підсумки (узагальнення коробних таблиць), щоб показати розташування, поширення та форму іншої змінної для кожного контейнера. Статистику m-літер додатково розгладжують, щоб підкреслити загальну закономірність, а не випадкові відхилення.

Швидку версію можна приготувати, скориставшись boxplotпроцедурою в R. Ми проілюструємо симульованими сильно гетеросептичними даними:

set.seed(17)
n <- 500
x <- rgamma(n, shape=6, scale=1/2)
e <- rnorm(length(x), sd=abs(sin(x)))
y <- x + e

Дані

Отримаємо прогнозовані значення та залишки з регресії OLS:

fit <- lm(y ~ x)
res <- residuals(fit)
pred <- predict(fit)

Ось тут - мандрівний схематичний графік, що використовує рівне число рахунків для передбачуваних значень. Я використовую lowessдля швидкого і брудного гладкого.

n.bins <- 17
bins <- cut(pred, quantile(pred, probs = seq(0, 1, 1/n.bins)))
b <- boxplot(res ~ bins, boxwex=1/2, main="Residuals vs. Predicted",
             xlab="Predicted", ylab="Residual")
colors <- hsv(seq(2/6, 1, 1/6))
temp <- sapply(1:5, function(i) lines(lowess(1:n.bins, b$stats[i,], f=.25), 
        col=colors[i], lwd=2))

Мандрівний схематичний сюжет

Синя крива згладжує медіани. Її горизонтальна тенденція вказує на те, що регресія загалом добре підходить. Інші криві згладжують кінці коробки (квартілі) та огорожі (які, як правило, є крайніми значеннями). Їх сильна конвергенція та подальше розмежування свідчать про гетеросцедастичність - і допомагають нам охарактеризувати та кількісно оцінити її.

(Зауважте нелінійну шкалу на горизонтальній осі, що відображає розподіл передбачуваних значень. За допомогою трохи більшої роботи ця вісь може бути лінеаризована, що іноді корисно.)


6
Хороший приклад, я міг би подумати, що деяка реалізація запущених квантилів доступна в R (щоб взагалі уникнути проблеми з бінами). Вигляд нагадує про мішки-сюжети . Також дивіться розширення Роб Хайндман у своєму пакеті Rainbow.
Енді Ш

9

Зазвичай гетерокедастичність моделюється за допомогою підходу Бройша-Язичника. Залишки вашої лінійної регресії потім квадратуються і регресуються на змінних у вашій оригінальній лінійній моделі. Остання регресія називається допоміжною регресією .

нRа2нRа2R2

Для своїх цілей ви можете зосередитись на окремих коефіцієнтах цієї моделі, щоб побачити, які змінні найбільш прогнозують високі або низькі результати дисперсії.


1
+1 Але зауважте, що такі тести обмежені у формах гетероскедастичності, які вони можуть виявити. Такі приклади, як показаний у моїй відповіді, можуть прослизнути прямо, хоча гетероцедастичність надзвичайно сильна.
whuber
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.