Інтуїція щодо знаків "плюс", пов'язана з дисперсією (від того, що навіть коли ми обчислюємо дисперсію різниці незалежних випадкових величин, додаємо їх відхилення), є правильною, але фатально неповною: якщо випадкові змінні, що задіяні, не є незалежними , тоді також беруть участь коваріанці - і коваріанці можуть бути негативними. Існує вираз, який майже нагадує вираз у питанні, вважалося, що це "повинно" бути ОП (і я), і це відмінність помилки передбачення , позначте його , де :у 0 = β 0 + β 1 х 0 + U 0e0=y0−y^0y0=β0+β1x0+u0
Var(e0)=σ2⋅(1+1n+(x0−x¯)2Sxx)
Критична різниця між дисперсією помилки передбачення і дисперсією оцінки похибки (тобто нев'язки), є те , що цей термін помилки передбаченого спостереження не корелює з оцінкою , так як значення були НЕ використовуються в побудова оцінювача та обчислення оцінок, що є вибірковим значенням.y0
Алгебра для обох протікає точно однаково до точки (використовуючи замість ), але потім розходиться. Конкретно:i0i
У простій лінійній регресії , , дисперсія оцінювача все ще вар ( U я ) = σ 2 β = ( β 0 , & beta ; 1 ) 'yi=β0+β1xi+uiVar(ui)=σ2β^=(β^0,β^1)′
Вар ( β^) = σ2( X'X )- 1
Ми маємо
Х'X = [ n∑ xi∑ xi∑ x2i]
і так
( X'X )- 1= [ ∑ x2i- ∑ хi- ∑ хiн] ⋅ [ n ∑ x2i- ( ∑ xi)2]- 1
Ми маємо
[ n ∑ x2i- ( ∑ xi)2] = [ n ∑ x2i- н2х¯2] =n [ ∑ x2i- n x¯2]= n ∑ ( x2i- х¯2) ≡ n Sх х
Так
( X'X )- 1= [ ( 1 / n ) ∑ x2i- х¯- х¯1] ⋅(1 / сх х)
що означає, що
Вар ( β^0) = σ2( 1н∑ x2i) ⋅(1 / с х х) = σ2нSх х+ n x¯2Sх х= σ2( 1н+ х¯2Sх х)
Вар ( β^1) = σ2( 1 / сх х)
Ков ( β^0, β^1) = - σ2( х¯/ Sх х)
-й залишковий визначаються якi
у^i= уi- у^i= ( β0- β^0) + ( β1- β^1) хi+ уi
Фактичні коефіцієнти розглядаються як константи, то регресорів фіксуються (або залежність від нього), і мають нульову ковариацию з помилкою, але ці оцінювачі корелюють з помилкою, тому що оцінювачі містять залежні змінні, і залежні змінні містить термін помилки. Так ми маємо
Вар ( у^i) = [ Var ( ui) + Var ( β^0) + х2iВар ( β^1) + 2 хiКов ( β^0,β^1)]+2Cov([(β0−β^0)+(β1−β^1)xi],ui)
=[σ2+σ2(1n+x¯2Sxx)+x2iσ2(1/Sxx)+2Cov([(β0−β^0)+(β1−β^1)xi],ui)
Спакуйте його трохи, щоб отримати
Var(u^i)=[σ2⋅(1+1n+(xi−x¯)2Sxx)]+2Cov([(β0−β^0)+(β1−β^1)xi],ui)
Термін у великих дужках має абсолютно таку ж структуру з дисперсією помилки передбачення, єдиною зміною є те, що замість нас буде (і дисперсія буде такою, що а не ). Останній член коваріації дорівнює нулю для помилки прогнозування, оскільки і, отже, , не входить до оцінок, але не дорівнює нулю для помилки оцінки, оскільки і, отже, є частиною вибірки, і тому вона включається оцінювач. Ми маємох 0 е 0 у я у 0 U 0 у я у яxix0e0u^iy0u0yiui
2Cov([(β0−β^0)+(β1−β^1)xi],ui)=2E([(β0−β^0)+(β1−β^1)xi]ui)
=−2E(β^0ui)−2xiE(β^1ui)=−2E([y¯−β^1x¯]ui)−2xiE(β^1ui)
остання заміна з розрахунку . Продовжуючи,β^0
...=−2E(y¯ui)−2(xi−x¯)E(β^1ui)=−2σ2n−2(xi−x¯)E[∑(xi−x¯)(yi−y¯)Sxxui]
=−2σ2n−2(xi−x¯)Sxx[∑(xi−x¯)E(yiui−y¯ui)]
=−2σ2n−2(xi−x¯)Sxx[−σ2n∑j≠i(xj−x¯)+(xi−x¯)σ2(1−1n)]
=−2σ2n−2(xi−x¯)Sxx[−σ2n∑(xi−x¯)+(xi−x¯)σ2]
=−2σ2n−2(xi−x¯)Sxx[0+(xi−x¯)σ2]=−2σ2n−2σ2(xi−x¯)2Sxx
Вставивши це у вираз для дисперсії залишку, отримаємо
Var(u^i)=σ2⋅(1−1n−(xi−x¯)2Sxx)
Тож капелюхи до тексту, який використовує ОП.
(Я пропустив деякі алгебраїчні маніпуляції, недарма в алгебрі OLS в ці дні все менше навчають ...)
ДЕЯКА ВІДУМКА
Отже, виявляється, що те, що працює "проти" нас (більша дисперсія) при прогнозуванні, працює "для нас" (нижча дисперсія) при оцінці. Це хороша відправна точка для того, щоб замислитися, чому відмінна відповідність може бути поганим знаком для можливостей прогнозування моделі (як би це не звучало контрінтуїтивно ...).
Той факт, що ми оцінюємо очікуване значення регресора, зменшує дисперсію на . Чому? тому що, оцінюючи , ми «закриваємо очі» на деяку мінливість помилок, що існує у вибірці, оскільки ми по суті оцінюємо очікуване значення. Більше того, чим більше середнє відхилення спостереження регресора від зразка регресора,1/nдисперсія залишку, пов'язаного з цим спостереженням, буде ... чим девіантніше спостереження, тим менше відхиляється його залишковий ... Це мінливість регресорів, яка працює на нас, "займаючи місце" невідомої помилки- мінливість.
Але це добре для оцінки . Для прогнозування проти нас обертаються ті ж самі речі: тепер, не враховуючи, як би недосконало, мінливості (оскільки ми хочемо це передбачити), наші недосконалі оцінки, отримані з вибірки, показують свої слабкі сторони: ми оцінювали оцінку середня вибірка, ми не знаємо справжнього очікуваного значення - дисперсія збільшується. У нас є що знаходиться далеко від середнього зразка, обчисленого з інших спостережень - дуже погано, наша дисперсія помилки прогнозування отримує ще один приріст, оскільки передбачуване буде схилятися ... більше Наукова мова "Оптимальні предиктори в сенсі зменшення дисперсії помилок прогнозування",х 0 у 0y0x0 y^0скорочення до середнього значення змінної під прогнозуванням ". Ми не намагаємось тиражувати змінну залежної змінної - ми просто намагаємось залишатися" близьким до середнього ".