Я вважаю цю тему досить цікавою, і нинішні відповіді, на жаль, є неповними або частково оманливими - незважаючи на актуальність та високу популярність цього питання.
За визначенням класичної структури МНК не повинно бути ніякого зв'язку між і цŷ u^ , так як залишки , отримані в будівництві на корелюють з виведенні МНК. Варіант мінімізації дисперсії при гомосекдастичності забезпечує залишкову помилку випадковим чином розподілити навколо встановлених значень. Це можна офіційно показати:ŷ
= P σ 2 - P σ 2 = 0
Cov(ŷ ,û |X)=Cov(Py,My|X)=Cov(Py,(I−P)y|X)=PCov(y,y)(I−P)′
=Pσ2−Pσ2=0
Там , де і Р є Ідемпотентний матриці визначені як: Р = Х ( Х ' х ) Х ' і М = I - Р .MPP=X(X′X)X′M=I−P
Цей результат ґрунтується на суворій екзогенності та гомоскедастичності і практично є у великих зразках. Інтуїції для їх uncorrelatedness полягає в наступному: Підібрані значення зумовлюють X зосереджені навколо U , які , як вважається , як незалежно один від одного і однаково розподілені. Тим НЕ менше, будь-яке відхилення від суворої екзогенних і гомоскедастичність припущення може привести до пояснює змінним , щоб бути ендогенними і стимулювати приховану кореляцію між ц і у . ŷ Xû û ŷ
Тепер кореляція між залишками «оригінальний» у зовсім інша історія:û y
Cov(y,û |X)=Cov(yMy|X)=Cov(y,(1−P)y)=Cov(y,y)(1−P)=σ2M
Деякі перевірки в теорії , і ми знаємо , що ця матриця ковариаций збігається з ковариационной матрицею залишкового у себе (доказ опущено). Ми маємо:u^
Var(û )=σ2M=Cov(y,û |X)
Якщо ми хочемо обчислити (скалярний) ковариации між і ц в відповідно до проханням О.П., ми отримаємо:yu^
⟹Covscalar(y,û |X)=Var(û |X)=(∑u2i)/N
(= підсумовуючи діагональні записи матриці коваріації та ділимо на N)
Наведена вище формула вказує на цікавий момент. Якщо ми перевірити взаємозв'язок регресу на невязке у (+ константа), коефіцієнт нахилу β ц , у = 1 , який може бути легко отримуються , коли ми розділимо вище вираз на Var ( ¯u | X ) .yu^βu^,y=1Var(û |X)
З іншого боку, кореляція - це стандартизована коваріація за відповідними стандартними відхиленнями. Тепер дисперсійна матриця залишків становить , тоді як дисперсія уσ2My є . Кореляція Кор ( у , у ) стає тому:σ2ICorr(y,û )
Corr(y,û )=Var(û )Var(u^)Var(y)−−−−−−−−−−−√=Var(û )Var(y)−−−−−−√=Var(û )σ2−−−−−−√
Це основний результат, який повинен мати місце в лінійній регресії. Інтуїції є те , що висловлює помилку між істинною дисперсією терміна помилок і проксі - сервером для дисперсії на основі залишків. Зверніть увагу , що дисперсія у дорівнює дисперсії у плюс дисперсії залишків ˙U . Тож його можна інтуїтивно переписати як:Corr(y,û )yy^u^
Корр ( у, у ) = 11 + вар ( у)^Var ( у )--------√
Тут працюють дві сили. Якщо у нас є великий припадок лінії регресії, кореляції , як очікується , буде низьким з - за . З іншого боку, вар ( у ) є трохи ірисок до гідності , оскільки це є безумовним і прямим в просторі параметрів. Порівняння безумовних та умовних дисперсій у співвідношенні може бути не підходящим показником. Можливо, тому це рідко робиться на практиці.Var ( у ) ≈ 0Вар ( у^)
Спроба завершити питання: Співвідношення між і у позитивна і відноситься до співвідношення дисперсії залишків і дисперсій істинного члена помилки, проксіруемому по безумовної дисперсії у . Отже, це трохи оманливий показник.уU у
Незважаючи на те, що ця вправа може дати нам інтуїцію щодо роботи та притаманних їй теоретичних припущень щодо регресії OLS, ми рідко оцінюємо співвідношення між та uу. Звичайно, є більш встановлені тести для перевірки властивостей істинного терміна помилки. По- друге, мати на увазіщо залишки не термін помилка, і тести на невязок ˙U , що будувати припущення характеристик на істинний термін помилки у обмежені і їх потреби діїщоб бути оброблені з особливою ретельністю.U U у
Наприклад, я хотів би вказати на заяву попереднього афіші тут. Кажуть, що
"Якщо ваші залишки співвідносяться з вашими незалежними змінними, то ваша модель гетерокедастична ..."
Я думаю, що це може бути не зовсім дійсним у цьому контексті. Вірите чи ні, але залишки OLS по конструкції зроблені бути корелюють з незалежної змінної х K . Щоб побачити це, врахуйте:U хк
= X ′ y - X ′ X ( X ′ X ) X ′ y = X ′
Х'уi= X'Му= X'( Я- Р) у= X'у- X'Пу
= X'у- X'Х( X'Х) X'у= X'у- X'у= 0
⟹Х'уi= 0⟹Ков ( X', уi| Х) = 0⟹Cov ( xk i, уi| хкі ) = 0
Однак, можливо, ви чули твердження, що пояснювальна змінна корелює з терміном помилки . Зауважте, що такі твердження ґрунтуються на припущеннях щодо всього населення із справжньою базовою регресійною моделлю, яку ми не спостерігаємо з перших рук. Отже, перевірка кореляції між і у здається безглуздим в лінійної рамках МНК. Однак при тестуванні науU гетерокедастичність ми враховуємо тут другий умовний момент, наприклад, регресуємо залишки квадрата на або функцію XХХ, як це часто буває з оцінками FGSL. Це відрізняється від оцінки простої кореляції. Я сподіваюся, що це допоможе зробити справи більш зрозумілими.