Залишки - це наші оцінки термінів помилки
Коротка відповідь на це питання порівняно проста: припущення в регресійній моделі - це припущення про поведінку термінів помилки, а залишки - це наші оцінки термінів помилки. Ipso facto , вивчення поведінки спостережуваних залишків говорить нам про те, чи правдоподібні припущення про умови помилки.
Щоб зрозуміти цю загальну лінію міркувань більш детально, це допомагає детально вивчити поведінку залишків у стандартній регресійній моделі. У стандартній множинній лінійній регресії з незалежними нормами гомоскедастичної нормальної помилки відомий розподіл залишкового вектора, що дозволяє перевірити основні припущення розподілу в моделі регресії. Основна ідея полягає в тому, щоб ви з'ясували розподіл залишкового вектора за припущеннями регресії, а потім перевіряли, чи є остаточні значення правдоподібними цим теоретичним розподілом. Відхилення від теоретичного залишкового розподілу показують, що базовий припущений розподіл термінів помилки в деякому відношенні неправильний.
Якщо ви використовуєте основний розподіл помилок ϵi∼ IID N ( 0 ,σ2) для стандартної регресійної моделі, і ви використовуєте оцінку OLS для коефіцієнтів, тоді розподіл залишків може бути показаний як багатофакторний нормальний розподіл:
r = ( я- h ) ϵ ∼ N ( 0 ,σ2( Я- з ) ) ,
де - матриця капелюхів для регресії. Залишковий вектор імітує вектор помилки, але матриця дисперсії має додатковий мультиплікативний термін . Щоб перевірити припущення регресії, ми використовуємо залишкові студенти, які мають граничне Т-розподіл:h = x (хТх)- 1хТЯ- год
сi≡riσ^Вих⋅ ( 1 -лi)∼ T (dfРез- 1 ) .
(Ця формула стосується залишків, що студентами, де оцінювач дисперсії виключає розглянуту змінну. Значення - значення важеля, які є діагональними значеннями в матриці капелюхів . Студентовані залишки не є незалежні, але якщо великий, вони близькі до незалежних. Це означає, що граничний розподіл є простим відомим розподілом, але спільний розподіл є складним.) Тепер, якщо межа існує, тоді можна показати, що оцінювачі коефіцієнтів є послідовними оцінками справжніх коефіцієнтів регресії, а залишки - послідовними оцінками істинні умови помилки.лi=годi , iнlimn → ∞(хТx ) / n = Δ
По суті, це означає, що ви перевіряєте основні припущення щодо розподілу на умови помилки, порівнюючи залишки, що вивчаються, з Т-розподілом. Кожна з основних властивостей розподілу помилок (лінійність, гомоскедастичність, некорельовані помилки, нормальність) може бути перевірена за допомогою аналогічних властивостей розподілу залишків, що вивчаються. Якщо модель вказана правильно, то для великих залишки повинні бути близькими до справжніх помилок, і вони мають схожу форму розподілу.н
Опущення пояснювальної змінної з регресійної моделі призводить до опущеного зміщення змінного коефіцієнта в коефіцієнтах, і це впливає на залишковий розподіл. На середнє значення та дисперсію залишкового вектора впливає опущена змінна. Якщо опущені умови регресії є то залишковий вектор стає . Якщо вектори даних у опущеній матриці є IID нормальними векторами і не залежать від термінів помилки, тоZδr = ( я- з ) ( Zδ + ϵ )ZZδ + ϵ ∼ N ( μ 1 ,σ2∗Я) так що залишковий розподіл стає:
r = ( я- з ) ( Zδ + ϵ ) ∼ N ( μ ( I)- з ) 1 ,σ2∗( Я- з ) ) .
Якщо в моделі вже є перехоплюючий термін (тобто, якщо одиничний вектор знаходиться в матриці проектування), то1( Я- h ) 1 = 0, що означає, що стандартна форма розподілу залишків збережена. Якщо в моделі немає терміна перехоплення, опущена змінна може дати нульове значення для залишків. Крім того, якщо опущена змінна не є IID нормальною, то це може призвести до інших відхилень від стандартного залишкового розподілу. В останньому випадку залишкові тести навряд чи виявлять щось, що є наслідком наявності опущеної змінної; як правило, неможливо визначити, чи виникають відхилення від теоретичного залишкового розподілу внаслідок опущеної змінної чи просто через неправильне співвідношення із включеними змінними (і, можливо, це те саме в будь-якому випадку).