Залишкові графіки: чому графік проти встановлених значень, а не спостережуваних значень


20

У контексті регресії OLS я розумію, що залишковий графік (проти встановлених значень) умовно розглядається для перевірки на постійну дисперсію та оцінки специфікації моделі. Чому залишки побудовані проти пристосувань, а не значень ? Чим інформація відрізняється від цих двох сюжетів?Y

Я працюю над моделлю, яка створила такі залишкові ділянки:

введіть тут опис зображення

введіть тут опис зображення

Таким чином, графік проти встановлених значень швидко виглядає добре, але другий графік проти значення має закономірність. Мені цікаво, чому така яскраво виражена закономірність не виявиться і в графіку залишків проти придатних ....Y

Y

2


3
Я взяв на себе сміливість змінити назву, щоб трохи більше відповідати вашим намірам. Навіть серед економістів (ви можете бути одним) "IV" має ще одне значення інструментальної змінної, хоча в цьому випадку неоднозначності немає. Для кращого спілкування в декількох статистичних науках деякі з нас відштовхують локально використовувані абревіатури, такі як DV (що для деяких людей все ще означає Deo volente ) та IV на користь сприятливих термінів, таких як відповідь або результат, з одного боку, і передбачувач або коваріат інший. Я знаю, що це деталь у вашому запитанні, але на неї добре відповіли.
Нік Кокс

Відповіді:


11

Побудувавши термін помилки в моделі OLS, не співвідноситься із спостережуваними значеннями X коваріатів. Це завжди буде справедливо для спостережуваних даних, навіть якщо модель дає упереджені оцінки, які не відображають справжні значення параметра, тому що припущення про модель порушено (як опущена проблема змінної або проблема із зворотною причинністю). Прогнозовані значення цілком є ​​функцією цих коваріатів, тому вони також некорельовані із терміном помилки. Таким чином, коли ви будуєте залишки проти передбачуваних значень, вони завжди повинні виглядати випадковими, оскільки вони дійсно не співвідносяться при побудові оцінювача. На відміну від цього, цілком можливо (і справді можливо) термін помилки моделі співвідносити з Y на практиці. Наприклад, за допомогою дихотомічної змінної X далі справжнє Y є від будь-якогоE(Y | X = 1)або E(Y | X = 0)тоді більший залишок буде. Ось така сама інтуїція з імітованими даними в R, де ми знаємо, що модель є неупередженою, оскільки ми керуємо процесом генерування даних:

rm(list=ls())
set.seed(21391209)

trueSd <- 10
trueA <- 5
trueB <- as.matrix(c(3,5,-1,0))
sampleSize <- 100

# create independent x-values
x1 <- rnorm(n=sampleSize, mean = 0, sd = 4)
x2 <-  rnorm(n=sampleSize, mean = 5, sd = 10)
x3 <- 3 + x1 * 4 + x2 * 2 + rnorm(n=sampleSize, mean = 0, sd = 10)
x4 <- -50 + x1 * 7 + x2 * .5 + x3 * 2  + rnorm(n=sampleSize, mean = 0, sd = 20)
X = as.matrix(cbind(x1,x2,x3,x4))


# create dependent values according to a + bx + N(0,sd)
Y <-  trueA +  X %*%  trueB  +rnorm(n=sampleSize,mean=0,sd=trueSd)


df = as.data.frame(cbind(Y,X))
colnames(df) <- c("y", "x1", "x2", "x3", "x4")
ols = lm(y~x1+x2+x3+x4, data = df)
y_hat = predict(ols, df)
error = Y - y_hat
cor(y_hat, error) #Zero
cor(Y, error) #Not Zero

Ми отримуємо такий же результат нульової кореляції з упередженою моделлю, наприклад, якщо опустити x1.

ols2 = lm(y~x2+x3+x4, data = df)
y_hat2 = predict(ols2, df)
error2 = Y - y_hat2
cor(y_hat2, error2) #Still zero
cor(Y, error2) #Not Zero

2
Корисно, але перше речення можна було б переписати для наочності. "Будівництво" виробляє залишки; Термін помилки вважається наявним там і існує до обчислення. Так само я б сказав, що саме оцінки будуються, а не оцінювач, який є методом їх побудови.
Нік Кокс

Але тоді чому ми навіть дивимось на залишкову діаграму (проти підходить)? Яке діагностичне призначення має цей сюжет? Я новачок на сайті. Чи потрібно тегувати Майкла або він автоматично отримує цей коментар? Мій коментар також стосуватиметься відповіді @Glen_b нижче. Обидві відповіді допомагають мені зрозуміти. Спасибі.
Мак

... тому що вони можуть виявити іншу структуру. Відсутність кореляції між залишковим і придатним не означає, що інші речі теж не можуть відбуватися. Якщо ви вважаєте, що ваша модель ідеальна, ви не повірите, що це можливо .... На практиці вам потрібно перевірити наявність інших типів структури.
Нік Кокс

@Mac, я чесно скажу, що я ніколи не дивлюся на ці сюжети. Якщо ви намагаєтеся зробити причинно-наслідковий висновок, тоді вам слід продумати пропущені проблеми змінної та проблеми зворотної причинності. Будь-яка проблема може виникнути, і ви не зможете відбити її від цих сюжетів, оскільки це проблеми спостережливої ​​еквівалентності. Якщо все, що вам цікаво, це передбачення, то вам слід продумати і перевірити поза вибіркою, наскільки добре прогнози вашої моделі виконуються поза вибіркою (інакше це не прогноз).
Майкл

@NickCox Так, я маю на увазі термін помилки, який оцінюється моделлю, а не справжнє значення параметра.
Майкл

20

Два факти, за якими я вважаю, що ти задоволений мною, лише констатуючи:

yi=y^i+e^i

Cov(y^i,e^i)=0

Потім:

Cov(yi,e^i)=Cov(y^i+e^i,e^i)

=Cov(y^i,e^i)+Cov(e^i,e^i)

=0+σe2

=σe2

Отже, хоча примірне значення не співвідноситься із залишковим, спостереження є .

По суті, це тому, що і спостереження, і залишок пов'язані з терміном помилки.

Зазвичай це ускладнює використання залишкової ділянки для діагностичних цілей.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.