У простій лінійній регресії звідки береться формула дисперсії залишків?


21

Відповідно до тексту, який я використовую, формула дисперсії залишку задається:ith

σ2(11n(xix¯)2Sxx)

Я знаходжу це важко повірити , так як залишкова різниця між спостережуваним значенням і підігнаній значення; якби було обчислити дисперсію різниці, я, принаймні, очікував би певних «плюсів» у отриманому виразі. Будь-яка допомога в розумінні походження буде вдячна.ithithith


Чи можливо, що деякі " " знаки в тексті неправильно відображаються (або неправильно читаються) як " " знаки? +
whuber

Я думав про це, але це траплялося двічі в тексті (2 різні глави), тому я вважав, що це малоймовірно. Звичайно, виведення формули допоможе! :)
Ерік

Негативи є результатом позитивної кореляції між спостереженням та його придатною величиною, що зменшує дисперсію різниці.
Glen_b -Встановіть Моніку

@Glen Спасибі за пояснення, чому виявляється, що формула має сенс разом із вашим матричним виведенням нижче.
Ерік

Відповіді:


27

Інтуїція щодо знаків "плюс", пов'язана з дисперсією (від того, що навіть коли ми обчислюємо дисперсію різниці незалежних випадкових величин, додаємо їх відхилення), є правильною, але фатально неповною: якщо випадкові змінні, що задіяні, не є незалежними , тоді також беруть участь коваріанці - і коваріанці можуть бути негативними. Існує вираз, який майже нагадує вираз у питанні, вважалося, що це "повинно" бути ОП (і я), і це відмінність помилки передбачення , позначте його , де :у 0 = β 0 + β 1 х 0 + U 0e0=y0y^0y0=β0+β1x0+u0

Var(e0)=σ2(1+1n+(x0x¯)2Sxx)

Критична різниця між дисперсією помилки передбачення і дисперсією оцінки похибки (тобто нев'язки), є те , що цей термін помилки передбаченого спостереження не корелює з оцінкою , так як значення були НЕ використовуються в побудова оцінювача та обчислення оцінок, що є вибірковим значенням.y0

Алгебра для обох протікає точно однаково до точки (використовуючи замість ), але потім розходиться. Конкретно:i0i

У простій лінійній регресії , , дисперсія оцінювача все ще вар ( U я ) = σ 2 β = ( β 0 , & beta ; 1 ) 'yi=β0+β1xi+uiVar(ui)=σ2β^=(β^0,β^1)

Var(β^)=σ2(XX)1

Ми маємо

XX=[nxixixi2]

і так

(Х'Х)-1=[хi2-хi-хiн][нхi2-(хi)2]-1

Ми маємо

[нхi2-(хi)2]=[нхi2-н2х¯2]=н[хi2-нх¯2]=н(хi2-х¯2)нSхх

Так

(Х'Х)-1=[(1/н)хi2-х¯-х¯1](1/Sхх)

що означає, що

Вар(β^0)=σ2(1нхi2) (1/Sхх)=σ2нSхх+нх¯2Sхх=σ2(1н+х¯2Sхх)

Вар(β^1)=σ2(1/Sхх)

Ков(β^0,β^1)=-σ2(х¯/Sхх)

-й залишковий визначаються якi

у^i=уi-у^i=(β0-β^0)+(β1-β^1)хi+уi

Фактичні коефіцієнти розглядаються як константи, то регресорів фіксуються (або залежність від нього), і мають нульову ковариацию з помилкою, але ці оцінювачі корелюють з помилкою, тому що оцінювачі містять залежні змінні, і залежні змінні містить термін помилки. Так ми маємо

Var(u^i)=[Var(ui)+Var(β^0)+xi2Var(β^1)+2xiCov(β^0,β^1)]+2Cov([(β0β^0)+(β1β^1)xi],ui)

=[σ2+σ2(1n+x¯2Sxx)+xi2σ2(1/Sxx)+2Cov([(β0β^0)+(β1β^1)xi],ui)

Спакуйте його трохи, щоб отримати

Var(u^i)=[σ2(1+1n+(xix¯)2Sxx)]+2Cov([(β0β^0)+(β1β^1)xi],ui)

Термін у великих дужках має абсолютно таку ж структуру з дисперсією помилки передбачення, єдиною зміною є те, що замість нас буде (і дисперсія буде такою, що а не ). Останній член коваріації дорівнює нулю для помилки прогнозування, оскільки і, отже, , не входить до оцінок, але не дорівнює нулю для помилки оцінки, оскільки і, отже, є частиною вибірки, і тому вона включається оцінювач. Ми маємох 0 е 0 у я у 0 U 0 у я у яxix0e0u^iy0u0yiui

2Cov([(β0β^0)+(β1β^1)xi],ui)=2E([(β0β^0)+(β1β^1)xi]ui)

=2E(β^0ui)2xiE(β^1ui)=2E([y¯β^1x¯]ui)2xiE(β^1ui)

остання заміна з розрахунку . Продовжуючи,β^0

...=2E(y¯ui)2(xix¯)E(β^1ui)=2σ2n2(xix¯)E[(xix¯)(yiy¯)Sxxui]

=2σ2n2(xix¯)Sxx[(xix¯)E(yiuiy¯ui)]

=2σ2n2(xix¯)Sxx[σ2nji(xjx¯)+(xix¯)σ2(11n)]

=2σ2n2(xix¯)Sxx[σ2n(xix¯)+(xix¯)σ2]

=2σ2n2(xix¯)Sxx[0+(xix¯)σ2]=2σ2n2σ2(xix¯)2Sxx

Вставивши це у вираз для дисперсії залишку, отримаємо

Var(u^i)=σ2(11n(xix¯)2Sxx)

Тож капелюхи до тексту, який використовує ОП.

(Я пропустив деякі алгебраїчні маніпуляції, недарма в алгебрі OLS в ці дні все менше навчають ...)

ДЕЯКА ВІДУМКА

Отже, виявляється, що те, що працює "проти" нас (більша дисперсія) при прогнозуванні, працює "для нас" (нижча дисперсія) при оцінці. Це хороша відправна точка для того, щоб замислитися, чому відмінна відповідність може бути поганим знаком для можливостей прогнозування моделі (як би це не звучало контрінтуїтивно ...).
Той факт, що ми оцінюємо очікуване значення регресора, зменшує дисперсію на . Чому? тому що, оцінюючи , ми «закриваємо очі» на деяку мінливість помилок, що існує у вибірці, оскільки ми по суті оцінюємо очікуване значення. Більше того, чим більше середнє відхилення спостереження регресора від зразка регресора,1/nдисперсія залишку, пов'язаного з цим спостереженням, буде ... чим девіантніше спостереження, тим менше відхиляється його залишковий ... Це мінливість регресорів, яка працює на нас, "займаючи місце" невідомої помилки- мінливість.

Але це добре для оцінки . Для прогнозування проти нас обертаються ті ж самі речі: тепер, не враховуючи, як би недосконало, мінливості (оскільки ми хочемо це передбачити), наші недосконалі оцінки, отримані з вибірки, показують свої слабкі сторони: ми оцінювали оцінку середня вибірка, ми не знаємо справжнього очікуваного значення - дисперсія збільшується. У нас є що знаходиться далеко від середнього зразка, обчисленого з інших спостережень - дуже погано, наша дисперсія помилки прогнозування отримує ще один приріст, оскільки передбачуване буде схилятися ... більше Наукова мова "Оптимальні предиктори в сенсі зменшення дисперсії помилок прогнозування",х 0 у 0y0x0 y^0скорочення до середнього значення змінної під прогнозуванням ". Ми не намагаємось тиражувати змінну залежної змінної - ми просто намагаємось залишатися" близьким до середнього ".


Дякую за дуже чітку відповідь! Я радий, що моя «інтуїція» була правильною.
Ерік

Алекос, я дійсно не думаю, що це правильно.
Glen_b -Встановити Моніку

@Alecos помилка полягає у прийнятті оцінок параметрів, які не співвідносяться з терміном помилки. Ця частина: неправильно. Вар(у^i)=Вар(уi)+Вар(β^0)+хi2Вар(β^1)+2хiКов(β^0,β^1)
Glen_b -Встановіть Моніку

@Eric Вибачаюсь за те, що ввели вас в оману раніше. Я намагався надати певну інтуїцію для обох формул.
Алекос Пападопулос

+1 Ви можете зрозуміти, чому я зробив для цього випадки множинної регресії ... дякую за те, що ви доклали додаткових зусиль, щоб виконати випадок простої регресії.
Glen_b -Встановіть Моніку

19

Вибачте за дещо лаконічну відповідь, можливо, занадто абстрактну та мені не вистачає бажаної інтуїтивної експозиції, але я спробую повернутися та додати ще кілька деталей пізніше. Принаймні, це коротко.

Дано ,Н=Х(ХТХ)-1ХТ

Вар(у-у^)=Вар((Я-Н)у)=(Я-Н)Вар(у)(Я-Н)Т=σ2(Я-Н)2=σ2(Я-Н)

Звідси

Вар(уi-у^i)=σ2(1-годii)

У випадку простої лінійної регресії ... це дає відповідь на ваше запитання.

Ця відповідь також має сенс: оскільки позитивно корелює з , дисперсія різниці повинна бути меншою, ніж сума дисперсій.у^iуi

-

Редагувати: Пояснення, чому є ідентичним .(Я-Н)

(i) ідентичний:Н

Н2=Х(ХТХ)-1ХТХ(ХТХ)-1ХТ =Х [(ХТХ)-1ХТХ] (ХТХ)-1ХТ=Х(ХТХ)-1ХТ=Н

(ii)(Я-Н)2=Я2-ЯН-НЯ+Н2=Я-2Н+Н=Я-Н


1
Це дуже приємне виведення для його простоти, хоча один крок, який мені не зрозумілий, це чому . Можливо, коли ви трохи розгорнете свою відповідь, як це все одно плануєте зробити, ви могли б дещо сказати про це? (Я-Н)2=(Я-Н)
Джейк Вестфалл

@Jake Додав кілька рядків наприкінці
Glen_b -Встановити Моніку
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.