Як залишки відносяться до основних порушень?


9

Методом найменших квадратів ми хочемо оцінити невідомі параметри в моделі:

Yj=α+βxj+εj(j=1...n)

Після того як ми зробили це (для деяких спостережуваних значень), ми отримаємо пристосовану регресійну лінію:

Yj=α^+β^x+ej(j=1,...n)

Тепер, очевидно, ми хочемо перевірити деякі сюжети, щоб переконатися, що припущення виконані. Припустимо, ви хочете перевірити наявність гомосептичності, але для цього ми фактично перевіряємо залишки . Скажімо, ви вивчаєте графік залишкової та передбачуваної величин, якщо це показує нам, що гетероседастичність очевидна, то як це стосується терміну порушення ? Чи означає гетеросцедастичність у залишках гетероседастичність у термінах порушення? ejεj

Відповіді:


3

Найпростіший спосіб подумати над цим, це те, що ваші сирі залишки (еj=уj-у^j) є оцінками відповідних порушень (ε^j=еj). Однак є деякі зайві складності. Наприклад, хоча у стандартній моделі OLS ми припускаємо, що помилки / порушення є незалежними, залишки не можуть бути всіма. Загалом, лишеN-p-1 залишки можуть бути незалежними, оскільки ви використовували p-1 ступенів свободи в оцінці середньої моделі та залишків обмежуються до суми 0. Крім того, стандартне відхилення залишків сировини фактично не є постійним. Взагалі лінія регресії встановлена ​​таким чином, що вона буде в середньому ближче до тих точок з більшим важелем. Як результат, стандартне відхилення залишків для цих точок менше, ніж у пунктів низького важеля. (Детальніше про це може допомогти прочитати відповіді тут: Інтерпретація plot.lm () та / або тут: Як виконати залишковий аналіз для бінарних / дихотомічних незалежних предикторів при лінійній регресії? )


3
Для уточнення, щонайменше залишки Np-1 можуть бути незалежними, але, як правило, всі вони корелюють; натомість є лінійні перетворення їх, які можуть мати незалежні компоненти Np-1.
Glen_b -Встановити Моніку

@Glen_b, хороший момент.
gung - Відновіть Моніку

8

Відносини між ε^ і ε є:

ε^=(Я-Н)ε

де Н, капелюшна матриця, є Х(ХТХ)-1ХТ.

Що означає це сказати ε^i є лінійною комбінацією всіх помилок, але зазвичай більша частина ваги припадає на i-та.

Ось приклад, використовуючи carsнабір даних у Р. Розгляньте крапку, позначену фіолетовим кольором:

введіть тут опис зображення

Назвемо це пунктом i. Залишковий,ε^i0,98εi+jiшjεj, де шj для інших помилок знаходиться в області -0,02:

введіть тут опис зображення

Ми можемо переписати це як:

ε^i0,98εi+ηi

або загалом

ε^i=(1-годii)εi+ηi

де годii є i-й діагональний елемент Н. Аналогічношjвище є годij.

Якщо помилки - iid N(0,σ2) то в цьому прикладі зважена сума цих інших помилок матиме стандартне відхилення, що відповідає приблизно 1/7-му ефекту помилки iго спостереження за його залишковим.

Що означає, що в регресіях, що ведуть себе добре, залишки можуть здебільшого трактуватись як помірно галасливі оцінки непомітних термінів помилки. Як ми вважаємо точки далі від центру, все працює дещо менш приємно (залишок стає менш зваженим на помилку, а ваги на інші помилки стають менш рівними).

З багатьма параметрами або з Хне так добре розподілені, залишки можуть бути набагато менше, як помилки. Ви можете спробувати кілька прикладів.


2
Це правильний підхід. Крім того, для цього потрібен аргумент, за яким діагональні елементиНяк правило, "маленькі". Це робиться, показуючи, що трасування дорівнює кількості незалежних змінних (включаючи перехоплення, якщо такі є) - що безпосередньо пов'язане з тим, що це матриця проекції. Зауважте, що цей результат не залежить від будь-яких припущень щодо розподілу для окремої людиниεi: вони не повинні бути нормальними. Він також не залежить від будь-якої фактичної формули дляН; це наслідок підрахунку розмірів.
whuber

Хіба не інша обставина, за якої залишки можуть бути набагато меншими, як помилки, якби кількість спостережень нневеликий? Зазвичай як @whuber констатує той факт, що слід відН рівна кількість незалежних змінних означає, що його діагональні елементи невеликі, але це не обов'язково, якщо б число нцих елементів само по собі мало.
Адам Бейлі

@AdamBailey Звичайно, це коли н невеликий ... але це тому p/н є відносно великим, навіть якщо p- це лише 1 або 2.
Glen_b -Встановіть Моніку
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.