Чому ми використовуємо залишки для перевірки припущень щодо помилок у регресії?


10

Припустимо, у нас є модель .Yi=β0+β1Xi1+β2Xi2++βkXik+ϵi

Регресія має ряд припущень, наприклад, що помилки повинні бути нормально розподілені із середнім нулем та постійною дисперсією. Мене вчили перевіряти ці припущення, використовуючи звичайний графік QQ, щоб перевірити нормальність залишків та графік залишків проти встановленого, щоб перевірити, що залишки змінюються навколо нуля при постійній відхиленні.ϵiei=YiY^i

Однак ці тести стосуються залишків, а не помилок.

Як я розумію, помилки визначаються як відхилення кожного спостереження від їх «справжнього» середнього значення. Отже, ми можемо записати . Ці помилки ми не можемо спостерігати. *ϵi=Yi-Е[Yi]

Моє запитання таке: наскільки добре працюють рештки, імітуючи помилки?

Якщо припущення видаються задоволеними для залишків, чи означає це, що вони задовольняються і за помилками? Чи існують інші (кращі) способи перевірки припущень, як-от пристосування моделі до тестового набору даних та отримання залишків звідти?


* Крім того, це не вимагає, щоб модель була вказана правильно ? Тобто, що відповідь дійсно має стосунки з предикторами тощо у спосіб, визначений моделлю.Х1,Х2,

Якщо у нас відсутні деякі предиктори (скажімо, ), то очікування навіть не буде справжньою середньою, і подальший аналіз на неправильній моделі здається безглуздим.Хк+1 до ХpЕ[Yi]=β0+β1Хi1+β2Хi2++βкХiк

Як ми перевіримо, чи правильна модель?

Відповіді:


9

Залишки - це наші оцінки термінів помилки

Коротка відповідь на це питання порівняно проста: припущення в регресійній моделі - це припущення про поведінку термінів помилки, а залишки - це наші оцінки термінів помилки. Ipso facto , вивчення поведінки спостережуваних залишків говорить нам про те, чи правдоподібні припущення про умови помилки.

Щоб зрозуміти цю загальну лінію міркувань більш детально, це допомагає детально вивчити поведінку залишків у стандартній регресійній моделі. У стандартній множинній лінійній регресії з незалежними нормами гомоскедастичної нормальної помилки відомий розподіл залишкового вектора, що дозволяє перевірити основні припущення розподілу в моделі регресії. Основна ідея полягає в тому, щоб ви з'ясували розподіл залишкового вектора за припущеннями регресії, а потім перевіряли, чи є остаточні значення правдоподібними цим теоретичним розподілом. Відхилення від теоретичного залишкового розподілу показують, що базовий припущений розподіл термінів помилки в деякому відношенні неправильний.

Якщо ви використовуєте основний розподіл помилок ϵiIID N(0,σ2) для стандартної регресійної моделі, і ви використовуєте оцінку OLS для коефіцієнтів, тоді розподіл залишків може бути показаний як багатофакторний нормальний розподіл:

r=(Ih)ϵN(0,σ2(Ih)),

де - матриця капелюхів для регресії. Залишковий вектор імітує вектор помилки, але матриця дисперсії має додатковий мультиплікативний термін . Щоб перевірити припущення регресії, ми використовуємо залишкові студенти, які мають граничне Т-розподіл:год=х(хТх)-1хТЯ-год

сiriσ^Вих(1-лi)Т(dfРез-1).

(Ця формула стосується залишків, що студентами, де оцінювач дисперсії виключає розглянуту змінну. Значення - значення важеля, які є діагональними значеннями в матриці капелюхів . Студентовані залишки не є незалежні, але якщо великий, вони близькі до незалежних. Це означає, що граничний розподіл є простим відомим розподілом, але спільний розподіл є складним.) Тепер, якщо межа існує, тоді можна показати, що оцінювачі коефіцієнтів є послідовними оцінками справжніх коефіцієнтів регресії, а залишки - послідовними оцінками істинні умови помилки.лi=годi,iнlimн(хТх)/н=Δ

По суті, це означає, що ви перевіряєте основні припущення щодо розподілу на умови помилки, порівнюючи залишки, що вивчаються, з Т-розподілом. Кожна з основних властивостей розподілу помилок (лінійність, гомоскедастичність, некорельовані помилки, нормальність) може бути перевірена за допомогою аналогічних властивостей розподілу залишків, що вивчаються. Якщо модель вказана правильно, то для великих залишки повинні бути близькими до справжніх помилок, і вони мають схожу форму розподілу.н

Опущення пояснювальної змінної з регресійної моделі призводить до опущеного зміщення змінного коефіцієнта в коефіцієнтах, і це впливає на залишковий розподіл. На середнє значення та дисперсію залишкового вектора впливає опущена змінна. Якщо опущені умови регресії є то залишковий вектор стає . Якщо вектори даних у опущеній матриці є IID нормальними векторами і не залежать від термінів помилки, тоZδr=(Я-год)(Zδ+ϵ)ZZδ+ϵN(мк1,σ2Я) так що залишковий розподіл стає:

r=(Я-год)(Zδ+ϵ)N(мк(Я-год)1,σ2(Я-год)).

Якщо в моделі вже є перехоплюючий термін (тобто, якщо одиничний вектор знаходиться в матриці проектування), то1(Я-год)1=0, що означає, що стандартна форма розподілу залишків збережена. Якщо в моделі немає терміна перехоплення, опущена змінна може дати нульове значення для залишків. Крім того, якщо опущена змінна не є IID нормальною, то це може призвести до інших відхилень від стандартного залишкового розподілу. В останньому випадку залишкові тести навряд чи виявлять щось, що є наслідком наявності опущеної змінної; як правило, неможливо визначити, чи виникають відхилення від теоретичного залишкового розподілу внаслідок опущеної змінної чи просто через неправильне співвідношення із включеними змінними (і, можливо, це те саме в будь-якому випадку).


1
Дякую за всебічну відповідь. Чи можу я запитати, де у вас ? Мені здається, щоr=(Я-год)ϵr=Y-Y^=(Я-год)Y
травень

1
Оскільки вас є так що . hx=x(Ih)x=0r=(Ih)Y=(Ih)(xβ+ϵ)=(Ih)ϵ
Бен - Відновлення Моніки

-4

Зазвичай терміни залишки та помилки означають те саме. Якщо у вашій моделі немає предикторів, E (Y) справді є середнім значенням Y. Для предикторів (як у вашій моделі), E (Y) - значення Y, передбачене для кожного X. Отже, залишки - це різниця між кожним спостережуваним і передбачив Y.


3
"Зазвичай терміни залишки та помилки означають те саме." Я не думаю, що це правда - наскільки я розумію, залишки вимірюють різницю між спостережуваною величиною та передбачуваною величиною, тоді як помилки вимірюють різницю між спостережуваним значенням та справжнім середнім значенням.
травень

1
Строго кажучи помилки та залишки не є синонімами. Перші є випадковими змінними, другі - реалізаціями.
Річард Харді
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.