Чи має сенс вивчати графіки залишків щодо залежної змінної?

11

Мені хотілося б знати, чи є сенс вивчати графіки залишків стосовно залежної змінної, коли я отримав однозначну регресію. Якщо це має сенс, що означає сильна, лінійна, зростаюча кореляція між залишками (на осі y) та оцінними значеннями залежної змінної (на осі x)?

введіть тут опис зображення

regression residuals

— Луїджі
джерело

3

Я не впевнений, що ви маєте на увазі під "сильною, лінійною, зростаючою кореляцією". Чи можете ви показати сюжет? Цілком розумно побудувати залишки проти встановлених значень. Взагалі, ви хочете, щоб не було жодних стосунків - плоска горизонтальна лінія, що проходить через центр. Крім того, ви хочете, щоб вертикальна дисперсія залишків була постійною з лівої частини вашої ділянки вправо.

— gung - Відновіть Моніку

Привіт. Спасибі за вашу відповідь. Це сюжет: img100.imageshack.us/img100/7414/bwages.png

— Луїджі

Це викликає здивування. Дозвольте мені переконатися, що я розумію: ви запустили регресійну модель, потім побудували залишки проти встановлених значень, і це те, що у вас є, чи не так? Це не повинно виглядати так. Чи можете ви відредагувати своє запитання та вставити код, який ви використовували для моделі та сюжету?

— gung - Відновити Моніку

Ви правильно зрозуміли. Вибачте, але я не знаю, як отримати код, я запустив регресію і побудував залишки за допомогою програми Gretl.

— Луїджі

2

Спочатку я не бачив коментаря від @ mark999, коли я писав свою відповідь нижче. Я вважаю, що його підозра є правильним, що це залишки проти у-значень. Луїджі, повторюй свій графік - не намагайся інтерпретувати його, коли ти можеш помилитися з приводу того, що таке змінні.

— Єпископ Михаїл

12

Припустимо, у вас регресія , де . Тоді, . Чим вище значення , тим більше залишкове. Навпаки, графік залишків проти повинен демонструвати систематичної залежності. Також передбачуване значення має бути приблизно --- однаковим для кожного спостереження. Якщо всі передбачувані значення приблизно однакові, їх слід не співвідносити з помилками. $y_i = \beta_0 + \beta_1 x_i + \epsilon_i$ $\beta_1 \approx 0$ $y_i - \beta_0 \approx \epsilon_i$ $y$ $x$ $\hat{y}_i$ $\hat{\beta}_0$

Те, що говорить мені сюжет, - це те, що і по суті не пов'язані між собою (звичайно, є кращі способи цього показати). Повідомте нас, якщо ваш коефіцієнт не близький до 0. $x$ $y$ $\hat{\beta}_1$

Для кращої діагностики використовуйте графік залишків проти передбачуваної заробітної плати або проти значення . У цих сюжетах не слід дотримуватися відмінного шаблону. $x$

Якщо ви хочете трохи продемонструвати R, ось вам:

y      <- rnorm(100, 0, 5)
x      <- rnorm(100, 0, 2)
res    <- lm(y ~ x)$residuals
fitted <- lm(y ~ x)$fitted.values
plot(y, res)
plot(x, res)
plot(fitted, res)

— Чарлі
джерело

Це не означає, що лише через

можливо, що модель потребує більше пояснювальних змінних, наприклад, поліноміальних термінів.

β_{1} = 0

$\beta_1=0$

— Біостат

5

Якщо припустимо, що вказана модель правильно вказана ...

Позначимо через , матриця являє собою матрицю проекції, так що і . $P_X=X(X'X)^{-1}X'$ $P_X$ $P_X^2=P_X$ $P_X'=P_X$

. $Cov(\hat{Y},\hat{e})=Cov(P_XY,(I-P_X)Y)=P_XCov(Y,Y)(I-P_X)'=\sigma^2P_X(I-P_X)=0$

Отже графік розсіяння залишків проти передбачуваної залежної змінної не повинен виявляти кореляції.

Але!

. $Cov(Y,\hat{e})=Cov(Y,(I-P_X)Y)=Cov(Y,Y)(I-P_X)'=\sigma^2(I-P_X)$

Матриця - матриця проекцій, її власні значення дорівнюють 0 або +1, це додатне напіввизначене. Так воно має мати негативні значення по діагоналі. Отже графік розсіяння залишків проти оригінальної залежної змінної повинен виявляти позитивну кореляцію. $\sigma^2(I-P_X)$

Наскільки я знаю, Gretl виробляє за замовчуванням графік залишків проти оригінальної залежної змінної (не передбачуваної!).

— Роа
джерело

Я ціную різні можливості. Ось де корисні деякі знання про Гретля. Мені цікаво, однак, наскільки правдоподібно, що це справжня відповідь. Використовуючи свої імітовані дані, я співставив та побудував графіки залишків порівняно з оригінальним відеореєстратором; r = .22, і сюжет дуже схожий на мій 3-й сюжет, а не на сюжет. Звичайно, я опрацював ці дані, щоб перевірити правдоподібність моєї історії - вони можуть бути невідповідними для перевірки ваших.

— gung - Відновити Моніку

@gung, що ти означає, що ти використав свої імітовані дані?

— Єпископ Михаїл

@MichaelBishop якщо ви подивитесь на мою відповідь, ви побачите, що я імітував дані, щоб перевірити свою історію, щоб побачити, чи буде вона схожа на розміщений сюжет. Мій код та сюжети представлені. Оскільки я вказав насіння, його можна відтворити будь-ким, хто має доступ до R.

— gung - Відновити Моніку

4

Чи можливо ви плутаєте вбудовані / прогнозовані значення з фактичними значеннями?

Як сказали @gung та @biostat, ви сподіваєтесь, що між встановленими значеннями та залишками немає зв’язку. З іншого боку, знайти лінійну залежність між фактичними значеннями залежної / змінної результатів та залишками слід очікувати і не є особливо інформативним.

Додано для уточнення попереднього речення: Не слід очікувати просто будь-якої лінійної залежності між залишками та фактичними значеннями вихідного значення ... Для низьких виміряних значень Y прогнозовані значення Y з корисної моделі будуть, як правило, вищими, ніж фактичні виміряні значення та навпаки.

— Михайло Єпископ
джерело

Наслідком того, що ви говорите, є те, що якщо значення послідовно недооцінюються при низьких значеннях Y і послідовно завищуються при високих значеннях Y, це нормально. Це проблема, правда?

— rolando2

@ rolando2, я не мав на увазі те, що ти кажеш, я мав на увазі, хоча, можливо, я повинен уточнити свою відповідь. Як ви сказали, послідовно непередбачувати при низьких долях Y і перепереджати при високих значеннях Y було б ознакою дуже поганої моделі. Я уявив навпаки, перепереджаючи при низьких значеннях Y і недопереджаючи при високих значеннях Y. Це явище є загальним, і його слід очікувати приблизно пропорційно тому, яку кількість дисперсії залежної змінної ви можете пояснити. Уявіть, що вам не вистачає змінних, які передбачають Y, тому ви завжди використовуєте середнє значення для свого передбачення

— Michael Bishop

1

те, що ви сказали, має для мене сенс, крім однієї речі. У мене виникають труднощі уявити, що тенденція, така сильна, як показала Луїджі, коли-небудь виявиться в здоровому або бажаному рішенні, навіть якщо тенденція піде зліва вліво праворуч.

— rolando2

1

@ rolando2, Залишки зазвичай визначаються як спостережувані - відповідно, тому негативні залишки є надмірними прогнозами. У правильно визначеній моделі з мало пояснювальною силою - я суспільствознавець, тому все це бачу - існуватиме сильний позитивний зв’язок між залишками та спостережуваними значеннями результатів. Якщо це залишки проти фактичного сюжету, то тенденція від верхнього лівого до нижнього правого краю буде сигналом про неправильно вказану модель, про яку ви спочатку хвилювались.

— Єпископ Михаїл

Гаразд, моя провина. Як писали Майкл Бішоп та Роа, Ґретль розкриває залишки щодо спостережуваного y, а не передбачуваного. Мені дуже шкода всього цього безладу, я справді не очікував усіх цих відповідей. Я початківець, і я допустив цю помилку, тож сподіваюся, що ви можете мені «пробачити». У всякому разі, я думаю, що це повинно вказувати на мене, що я повинен був використовувати більше пояснювальних змінних. Дякую всім!

— Луїджі

3

Пропоновані відповіді дають мені кілька ідей щодо того, що тут відбувається. Я вірю, що випадково були допущені помилки. Подивіться, чи має сенс наступна історія: Для початку, я думаю, існує велика взаємозв’язок між даними X&Y (ось деякий код та сюжет):

set.seed(5)
wage <- rlnorm(1000, meanlog=2.3, sdlog=.5)
something_else <- .7*wage + rnorm(1000, mean=0, sd=1)
plot(wage, something_else, pch=3, col="red", main="Plot X vs. Y")

введіть тут опис зображення

Але помилково Y передбачили просто із середнього значення. У поєднанні з цим залишки від середньої моделі побудовані проти X, хоча те, що було призначено, було побудувати проти встановлених значень (код і графік):

meanModel <- lm(something_else~1)
windows()
plot(wage, meanModel$residuals, pch=3, col="red", 
    main="Plot of residuals from Mean only Model against X")
abline(h=0, lty="dotted")

введіть тут опис зображення

Ми можемо це виправити, встановивши відповідну модель та побудувавши із неї залишки (код та графік):

appropriateModel <- lm(something_else~wage)
windows()
plot(appropriateModel$fitted.values, appropriateModel$residuals, pch=3, col="red",
main="Plot of residuals from the appropriate\nmodel against fitted values")
lines(lowess(appropriateModel$residuals~appropriateModel$fitted.values))

введіть тут опис зображення

Це здається лише типом приховань, які я робив, коли починав.

— gung - Відновити Моніку
джерело

0

Цей графік вказує на те, що модель, яку ви встановили, не є хорошою. Як @gung сказав у перших коментарях до головного питання про те, що між передбачуваною відповіддю та залишковим не повинно бути зв'язку.

"аналітик повинен очікувати, що модель регресії помилиться при прогнозуванні реакції випадковим чином; модель повинна передбачити значення, вищі за фактичні та нижчі за фактичні з однаковою ймовірністю. Дивіться це "

Я рекомендую спочатку відповідь сюжету проти незалежної змінної, щоб побачити зв’язок між ними. Можливо, доцільно додати в модель многочленні терміни.

— Біостат
джерело

0

Хіба це не відбувається, якщо між змінною X&Y немає зв’язку? З огляду на цей графік, здається, ви по суті прогнозуєте Y з його середнім значенням.

— Адам
джерело

0

Я думаю, що ОП побудував графіки залишків проти оригінальної змінної відповіді (не вбудованої змінної відповіді з моделі). Я постійно бачу подібні сюжети з майже однаковою схемою. Переконайтеся, що ви розміщуєте залишки проти встановлених значень, тому що я не впевнений, який змістовний висновок ви можете зібрати від залишків проти оригіналу Y. Але я, безумовно, можу помилитися.

— Тодай
джерело