Інтерпретація графіку залишків проти встановлених значень для перевірки припущень лінійної моделі


34

Розглянемо наступний малюнок з лінійних моделей Faraway з R (2005, стор. 59).

введіть тут опис зображення

Перший сюжет, схоже, вказує на те, що залишкові та пристосовані значення є некорельованими, оскільки вони повинні бути в гомосептичній лінійній моделі з нормально розподіленими помилками. Тому другий та третій графіки, які, схоже, вказують на залежність між залишками та встановленими значеннями, пропонують іншу модель.

Але чому другий сюжет пропонує, як зазначає Фаравей, гетеросептичну лінійну модель, тоді як третій сюжет пропонує нелінійну модель?

Другий сюжет, схоже, вказує на те, що абсолютна величина залишків сильно позитивно корелює із встановленими значеннями, тоді як у третьому сюжеті така тенденція не очевидна. Отже, якби це було теоретично, в гетероседастичній лінійній моделі з нормально розподіленими помилками

Кор(е,у^)=[1111]

(де вираз зліва - матриця дисперсії-коваріації між залишками та встановленими значеннями), це пояснило б, чому другий та третій графіки узгоджуються з інтерпретаціями Фаравея.

Але це так? Якщо ні, то як інакше можуть бути виправдані інтерпретації Фаравея другого та третього сюжетів? Крім того, чому третій сюжет обов'язково вказує на нелінійність? Чи не можливо, що вона лінійна, але що помилки або нормально не розподіляються, або ж вони зазвичай розподіляються, але не зосереджуються навколо нуля?


3
Жоден із трьох сюжетів не відображає кореляцію (принаймні, не лінійну кореляцію, що є відповідним значенням "кореляції" у тому сенсі, в якому вона використовується у " залишках та пристосованих значеннях некорельовані ").
Glen_b -Встановити Моніку

1
@Glen_b: Дякую Я виправив абзац, на який ви посилалися, замінивши "залежність" на "кореляцію".
Еван Аад

Відповіді:


46

Нижче наведені залишкові графіки з приблизним середнім значенням та розворотом точок (межі, що включають більшість значень) при кожному значенні встановленого (а значить, і ), позначеного в - до приблизного наближення із зазначенням умовного середнього (червоного) та умовного значення (приблизно!) вдвічі більше умовного стандартного відхилення (фіолетовий):±х±

діагностичні графіки з приблизною середньою величиною та поширенням на кожне значення встановленого позначення

  • Другий графік показує, що середнє залишкове значення не змінюється відповідно до встановлених значень (і так не змінюється з ), але поширення залишків (а значить, і про встановлену лінію) збільшується в міру збільшення встановлені значення (або ) змінюються. Тобто спред не постійний. Гетероскедастичність.y xхух

  • третій графік показує, що залишки переважно негативні, коли примірне значення невелике, позитивне, коли встановлене значення знаходиться в середині, і негативне, коли примірне значення велике. Тобто, розкид є приблизно постійним, але умовне середнє значення немає - встановлена ​​лінія не описує, як поводиться як змінюється, оскільки відношення вигнуте.хух

Чи не можливо, що вона лінійна, але що помилки або нормально не розподіляються, або ж вони зазвичай розподіляються, але не зосереджуються навколо нуля?

Не насправді *, в таких ситуаціях сюжети виглядають інакше, ніж у третьому сюжеті.

(i) Якщо помилки були нормальними, але не в центрі нуля, а в , скажімо, тоді перехоплення середню помилку, і тому розрахунковий перехоплення буде оцінкою (це було б його очікуване значення, але воно оцінюється з помилкою). Отже, у ваших залишків все ще буде умовне середнє нульове значення, і тому сюжет виглядатиме як перший сюжет вище.β 0 + θθβ0+θ

(ii) Якщо помилки зазвичай не поширюються, шаблон точок може бути найгустішим де-небудь, крім центральної лінії (якщо дані перекошені), скажімо, але місцеве середнє залишкове значення все ще буде біля 0.

ненормальні помилки

Тут фіолетові лінії все ще представляють (дуже) приблизно 95% інтервал, але це вже не симетрично. (Я переглядаю пару питань, щоб уникнути затемнення основної точки тут.)

* Це не обов'язково неможливо - якщо у вас є термін "помилка", який насправді не поводиться як помилки - скажіть, де і пов'язані з ними точно правильно - ви, можливо, зможете створити шаблони подібного типу. Однак ми робимо припущення щодо терміна помилки, наприклад, що він не пов'язаний , наприклад, з , і має нульове середнє значення; нам доведеться порушити хоча б деякі з таких припущень, щоб це зробити. (У багатьох випадках у вас можуть бути підстави зробити висновок, що такі ефекти повинні бути відсутніми або хоча б відносно невеликими.)y xxух


1
у^у^х

2
х1х2х1

1
х

σ2ЯN(0,V)Vσ2ЯV
Еван Аад

1
(ctd) ... як ви повинні мати можливість бачити з мого першого коментаря під моєю відповіддю, зокрема, в результаті речення, що починається "Ви могли собі уявити ..." - але це в значній мірі виключає гетерокедастичність, пов'язану з значення.
Glen_b -Встановити Моніку

2

Ви написали

Другий сюжет, схоже, вказує на те, що абсолютна величина залишків сильно позитивно корелює з приведеними значеннями,

Це не "здається", це так. І ось що означає гетероскедастичний.

Тоді ви даєте матрицю всіх 1s, що не має значення; кореляція може існувати і бути меншою за 1.

Тоді ви пишете

Крім того, чому третій сюжет обов'язково вказує на нелінійність? Чи не можливо, що вона лінійна, але що помилки або нормально не розподіляються, або ж вони зазвичай розподіляються, але не зосереджуються навколо нуля?

Вони займають центр близько 0. Половина або близько цього нижче 0, наполовину вище. Важче сказати, чи зазвичай вони розповсюджуються з цього сюжету, але інший сюжет, який зазвичай рекомендують, - це кількісний нормальний графік залишків, і це показало б, нормально вони чи ні.


N(0,V)Vσ2Я

1
Квантильний нормальний сюжет дивиться лише на нормальність. Докази гомоскедастичності в першому сюжеті візуальні
Пітер Флом - Відновити Моніку

@PeterFlom: Вибачте за некропост: Я трохи розгублений у зв'язку з кількісною оцінкою, згідно з якою ми враховуємо помилку в кожній точці (xi, yi): чи розглядаємо ми кілька відповідей (xi, y1_1), (xi, yi_2), ... , (xi, yi_m) для входу xi; i = 1,2, ..., n (кількість точок даних), а потім знайдіть середнє значення та дисперсію для значень yi_j? Я просто плутаю, чому в лінійній регресії y = ax + b, x, y, a (або багатолінійному y + a1x1 + a2x2 + ... anxn, то ai, xi) є випадковими змінними, а не фіксованими значеннями. Крім того, чи робимо ми цей аналіз для кожної пари предикторів і кожної пари (y, x_i) з y незалежним значенням?
gary

Я не розумію, в чому ви плутаєтесь. Існує передбачуване значення y та фактичне значення y для кожного спостереження. Залишковим є різниця між ними.
Пітер Флом - Відновити Моніку
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.