Ця проблема має дослідницьке відчуття до неї. Джон Тукі описує безліч процедур дослідження гетероседастичності у своєму класичному дослідницькому аналізі даних (Аддісон-Уеслі 1977). Мабуть, найбільш безпосередньо корисним є варіант його « мандрівного схематичного сюжету ». Це розрізає одну змінну (наприклад, передбачуване значення) у бункери та використовує m-літерні підсумки (узагальнення коробних таблиць), щоб показати розташування, поширення та форму іншої змінної для кожного контейнера. Статистику m-літер додатково розгладжують, щоб підкреслити загальну закономірність, а не випадкові відхилення.
Швидку версію можна приготувати, скориставшись boxplot
процедурою в R
. Ми проілюструємо симульованими сильно гетеросептичними даними:
set.seed(17)
n <- 500
x <- rgamma(n, shape=6, scale=1/2)
e <- rnorm(length(x), sd=abs(sin(x)))
y <- x + e
Отримаємо прогнозовані значення та залишки з регресії OLS:
fit <- lm(y ~ x)
res <- residuals(fit)
pred <- predict(fit)
Ось тут - мандрівний схематичний графік, що використовує рівне число рахунків для передбачуваних значень. Я використовую lowess
для швидкого і брудного гладкого.
n.bins <- 17
bins <- cut(pred, quantile(pred, probs = seq(0, 1, 1/n.bins)))
b <- boxplot(res ~ bins, boxwex=1/2, main="Residuals vs. Predicted",
xlab="Predicted", ylab="Residual")
colors <- hsv(seq(2/6, 1, 1/6))
temp <- sapply(1:5, function(i) lines(lowess(1:n.bins, b$stats[i,], f=.25),
col=colors[i], lwd=2))
Синя крива згладжує медіани. Її горизонтальна тенденція вказує на те, що регресія загалом добре підходить. Інші криві згладжують кінці коробки (квартілі) та огорожі (які, як правило, є крайніми значеннями). Їх сильна конвергенція та подальше розмежування свідчать про гетеросцедастичність - і допомагають нам охарактеризувати та кількісно оцінити її.
(Зауважте нелінійну шкалу на горизонтальній осі, що відображає розподіл передбачуваних значень. За допомогою трохи більшої роботи ця вісь може бути лінеаризована, що іноді корисно.)