Яка очікувана кореляція між залишковою та залежною змінною?


26

У декількох лінійних регресіях я можу зрозуміти, що кореляція між залишковим та предиктором дорівнює нулю, але яка очікувана кореляція між залишковою та критеріальною змінною? Чи слід очікувати, що він буде нульовим або сильно корелює? У чому сенс цього?


4
Що таке "критеріальна змінна" ??
whuber

2
@whuber Я здогадуюсь, що Jfly має на увазі відповідь / результат / залежний / тощо. змінна. davidmlane.com/hyperstat/A101702.html Цікаво побачити багато назв таких змінних: en.wikipedia.org/wiki/…
Jeromy Anglim

@Jeromy Дякую! Я здогадувався, що це сенс, але не був впевнений. Це для мене новий термін - і у Вікіпедії, очевидно.
whuber

Я б подумав , що це була б дорівнює E[R2] або що - щось подібне, як і R2=[corr(y,y^)]2
probabilityislogic

y=f(x)+e , деf - функція регресії,e - помилка, аCov(f(x),e)=0 . ТодіCorr(y,e)=SD(e)/SD(y)=1R2 . Це вибіркова статистика; його очікуване значення було б подібним, але м'яснішим.
Ray Koopman

Відповіді:


20

У регресійній моделі:

yi=xiβ+ui

звичайне припущення про те , що , я = 1 , . . . , n - зразок iid. За припущеннями, що E x i u i = 0 і E ( x i x i ) має повний ранг, звичайний оцінювач найменших квадратів:(yi,xi,ui)i=1,...,nExiui=0E(xixi)

β^=(i=1нхiхi')-1i=1хiуi

є послідовним і асимптотично нормальним. Очікувана коваріація між залишковою та змінною відповіді тоді:

Еуiуi=Е(хi'β+уi)уi=Еуi2

Якщо ми , крім того , припустимо , що і Е ( U 2 я | х 1 , . . . , Х п ) = σ 2 , можна обчислити очікувану ковариации між y i та її регресія залишкова:Е(уi|х1,...,хн)=0Е(уi2|х1,...,хн)=σ2уi

Еуiу^i=Еуi(уi-хi'β^)=Е(хi'β+уi)(уi-хi(β^-β))=Е(уi2)(1-Ехi'(j=1нхjхj')-1хi)

Тепер , щоб отримати кореляцію , ми повинні обчислити і Var ( у я ) . Виявляється, щоВар(уi)Вар(у^i)

Вар(у^i)=Е(уiу^i),

звідси

Corr(yi,u^i)=1Exi(j=1nxjxj)1xi

Тепер доданок виходить від діагоналі шолома матриціH=X(X'X) - 1 X', деX=[ х я,. . . , x N]. МатрицяHідентична, отже, вона задовольняє наступну властивістьxi(j=1nxjxj)1xiH=X(XX)1XX=[xi,...,xN]H

trace(H)=ihii=rank(H),

де діагональний член H . Оцінка ( Н ) є число лінійно незалежних змінних в х я , що зазвичай число змінних. Назвемо це с . Кількість годин я я це розмір вибірки N . Отже, у нас є N негативних термінів, які повинні скласти до p . Зазвичай N набагато більший за p , отже, багато h i ihiiHrank(H)xiphiiNNpNphii було б близьким до нуля, тобто, кореляція між залишковою та змінною відповіді була б близькою до 1 для більшої частини спостережень.

Термін також використовується в різних регресійних діагностиках для визначення впливових спостережень.hii


10
+1 Це саме правильний аналіз. Але чому ви не закінчите роботу і не відповісте на питання? ОП запитує, чи є ця кореляція "високою" і що це може означати .
whuber

Тож можна сказати, що кореляція приблизно 1pN
ймовірністьлогічний

1
Кореляція різна для кожного спостереження, але так, ви можете сказати, що за умови, що X не має інших людей.
mpiktas

21

Кореляція залежить від . Якщо R 2 високий, це означає, що велика кількість варіантів вашої залежної змінної може бути віднесена до змін у ваших незалежних змінних, а НЕ до вашого помилки.R2R2

Однак якщо низький, це означає, що значна частина варіантів вашої залежної змінної не пов'язана з варіацією ваших незалежних змінних, і тому повинна бути пов'язана з терміном помилки.R2

Розглянемо таку модель:

, де Y і X некорельовані.Y=Xβ+εYX

Припускаючи достатні умови регулярності для проведення CLT.

сходиться до0, такХіYє некоррелірованнимі. Томуβ^0XY завжди буде дорівнює нулю. Таким чином,ε:=Y - Y =Y-0=Y. εіYідеально співвідносяться !!!Y^=Xβ^ε:=YY^=Y0=YεY

Утримуючи все інше виправленим, збільшення зменшить кореляцію між помилкою та залежною. Сильна кореляція не обов'язково є причиною тривоги. Це може просто означає, що основний процес є галасливим. Однак низький R 2 (а отже, висока кореляція між помилкою та залежністю) може бути наслідком неправильної специфікації моделі.R2R2


Я вважаю цю відповідь заплутаною, частково через її використання " ε » , щоб стояти як для членів помилки в моделі і залишків . Інший пункт плутанини - це посилання на "конвергенцію до", навіть не маючи послідовності нічого, що свідчить про те, до якої конвергенції може застосуватись. Припущення про те, що X і Y є неспорідненими, видається особливим і не є ілюстративним для загальних обставин. Все це затьмарює, що б ця відповідь не намагалася сказати або які твердження, як правило, вірні. YY^XY
whuber

17

Я вважаю цю тему досить цікавою, і нинішні відповіді, на жаль, є неповними або частково оманливими - незважаючи на актуальність та високу популярність цього питання.

За визначенням класичної структури МНК не повинно бути ніякого зв'язку між і цŷu^ , так як залишки , отримані в будівництві на корелюють з виведенні МНК. Варіант мінімізації дисперсії при гомосекдастичності забезпечує залишкову помилку випадковим чином розподілити навколо встановлених значень. Це можна офіційно показати:ŷ

= P σ 2 - P σ 2 = 0

Cov(ŷ,û|X)=Cov(Py,My|X)=Cov(Py,(IP)y|X)=PCov(y,y)(IP)
=Pσ2Pσ2=0

Там , де і Р є Ідемпотентний матриці визначені як: Р = Х ( Х ' х ) Х ' і М = I - Р .MPP=X(XX)XM=IP

Цей результат ґрунтується на суворій екзогенності та гомоскедастичності і практично є у великих зразках. Інтуїції для їх uncorrelatedness полягає в наступному: Підібрані значення зумовлюють X зосереджені навколо U , які , як вважається , як незалежно один від одного і однаково розподілені. Тим НЕ менше, будь-яке відхилення від суворої екзогенних і гомоскедастичність припущення може привести до пояснює змінним , щоб бути ендогенними і стимулювати приховану кореляцію між ц і у . ŷXûûŷ

Тепер кореляція між залишками «оригінальний» у зовсім інша історія:ûy

Cov(y,û|X)=Cov(yMy|X)=Cov(y,(1P)y)=Cov(y,y)(1P)=σ2M

Деякі перевірки в теорії , і ми знаємо , що ця матриця ковариаций збігається з ковариационной матрицею залишкового у себе (доказ опущено). Ми маємо:u^

Var(û)=σ2M=Cov(y,û|X)

Якщо ми хочемо обчислити (скалярний) ковариации між і ц в відповідно до проханням О.П., ми отримаємо:yu^

Covscalar(y,û|X)=Var(û|X)=(ui2)/N

(= підсумовуючи діагональні записи матриці коваріації та ділимо на N)

Наведена вище формула вказує на цікавий момент. Якщо ми перевірити взаємозв'язок регресу на невязке у (+ константа), коефіцієнт нахилу β ц , у = 1 , який може бути легко отримуються , коли ми розділимо вище вираз на Var ( ¯u | X ) .yu^βu^,y=1Var(û|X)

З іншого боку, кореляція - це стандартизована коваріація за відповідними стандартними відхиленнями. Тепер дисперсійна матриця залишків становить , тоді як дисперсія уσ2My є . Кореляція Кор ( у , у ) стає тому:σ2ICorr(y,û)

Corr(y,û)=Var(û)Var(u^)Var(y)=Var(û)Var(y)=Var(û)σ2

Це основний результат, який повинен мати місце в лінійній регресії. Інтуїції є те , що висловлює помилку між істинною дисперсією терміна помилок і проксі - сервером для дисперсії на основі залишків. Зверніть увагу , що дисперсія у дорівнює дисперсії у плюс дисперсії залишків ˙U . Тож його можна інтуїтивно переписати як:Corr(y,û)yy^u^

Кор(у,у̂)=11+Вар(у)^Вар(у̂)

Тут працюють дві сили. Якщо у нас є великий припадок лінії регресії, кореляції , як очікується , буде низьким з - за . З іншого боку, вар ( у ) є трохи ірисок до гідності , оскільки це є безумовним і прямим в просторі параметрів. Порівняння безумовних та умовних дисперсій у співвідношенні може бути не підходящим показником. Можливо, тому це рідко робиться на практиці.Вар(у̂)0Вар(у^)

Спроба завершити питання: Співвідношення між і у позитивна і відноситься до співвідношення дисперсії залишків і дисперсій істинного члена помилки, проксіруемому по безумовної дисперсії у . Отже, це трохи оманливий показник.уу̂у

Незважаючи на те, що ця вправа може дати нам інтуїцію щодо роботи та притаманних їй теоретичних припущень щодо регресії OLS, ми рідко оцінюємо співвідношення між та uу. Звичайно, є більш встановлені тести для перевірки властивостей істинного терміна помилки. По- друге, мати на увазіщо залишки не термін помилка, і тести на невязок ˙U , що будувати припущення характеристик на істинний термін помилки у обмежені і їх потреби діїщоб бути оброблені з особливою ретельністю.у̂у̂у

Наприклад, я хотів би вказати на заяву попереднього афіші тут. Кажуть, що

"Якщо ваші залишки співвідносяться з вашими незалежними змінними, то ваша модель гетерокедастична ..."

Я думаю, що це може бути не зовсім дійсним у цьому контексті. Вірите чи ні, але залишки OLS по конструкції зроблені бути корелюють з незалежної змінної х K . Щоб побачити це, врахуйте:у̂хк

= X y - X X ( X X ) X y = X

Х'уi=Х'Му=Х'(Я-П)у=Х'у-Х'Пу
=Х'у-Х'Х(Х'Х)Х'у=Х'у-Х'у=0
Х'уi=0Ков(Х',уi|Х)=0Ков(хкi,уi|хкi)=0

Однак, можливо, ви чули твердження, що пояснювальна змінна корелює з терміном помилки . Зауважте, що такі твердження ґрунтуються на припущеннях щодо всього населення із справжньою базовою регресійною моделлю, яку ми не спостерігаємо з перших рук. Отже, перевірка кореляції між і у здається безглуздим в лінійної рамках МНК. Однак при тестуванні науу̂ гетерокедастичність ми враховуємо тут другий умовний момент, наприклад, регресуємо залишки квадрата на або функцію XХХ, як це часто буває з оцінками FGSL. Це відрізняється від оцінки простої кореляції. Я сподіваюся, що це допоможе зробити справи більш зрозумілими.


1
Зверніть увагу , що ми маємо var(u^)var(y)=SSETSS=1R2corr(y,u^)=1R2

2
Що мені здається цікавим у цій відповіді, це те, що кореляція завжди позитивна.
ймовірністьлогічний

Var(y)

@probabilityislogic: Не впевнений, чи зможу я виконати ваш крок. Це було б тоді під прямокутником 1+ (1/1-R ^ 2), що є (2-R ^ 2) / (1-R ^ 2)? Однак правда полягає в тому, що вона залишається позитивною. Інтуїція полягає в тому, що якщо у вас є лінія через розсіювач, і ви регресуєте цю лінію на помилках з цього рядка, повинно бути очевидним, що зі збільшенням значення y цього рядка збільшується і значення залишків. Це тому, що залишки позитивно залежать від y за побудовою.
Majte

@mpiktas: У цьому випадку матриця стає скалярною, оскільки ми маємо справу лише в одному вимірі.
Majte

6

Відповідь Адама - неправильна. Навіть із моделлю, яка ідеально відповідає даних, ви все одно можете отримати високу кореляцію між залишками та залежною змінною. Ось чому жодна книга регресу не просить перевірити це співвідношення. Відповідь ви можете знайти в книзі "Прикладний регресійний аналіз" доктора Дрейпера.


3
Навіть якщо це правильно, це скоріше твердження, ніж відповідь відповідно до стандартів CV, @Jeff. Ви б не хотіли розробити / створити резервну копію вашої претензії? Навіть лише номер сторінки та видання Draper & Smith буде достатньо.
gung - Відновіть Моніку

4

Отже, залишки - це ваша незрозуміла дисперсія, різниця між прогнозами вашої моделі та реальним результатом, який ви моделюєте. На практиці в декількох моделях, вироблених за допомогою лінійної регресії, всі залишки будуть близькі до нуля, якщо не буде використана лінійна регресія для аналізу механічного або фіксованого процесу.

В ідеалі залишки вашої моделі повинні бути випадковими, тобто вони не повинні співвідноситись ні з вашими незалежними, ні із залежними змінними (якими ви називаєте змінну критерію). При лінійній регресії ваш помилковий термін зазвичай розподіляється, тому ваші залишки також повинні бути нормально розподілені. Якщо у вас є значні пережиті люди, або якщо ваші залишки співвідносяться або зі залежною вами змінною, або з вашими незалежними змінними, ви маєте проблеми зі своєю моделлю.

Якщо у вас є значні видатки та ненормальний розподіл ваших залишків, то люди, що переживають, можуть перекосити вагу (Betas), і я б запропонував обчислити DFBETAS для перевірки впливу ваших спостережень на вагу. Якщо ваші залишки співвідносяться із залежною вами змінною, то існує значно велика кількість незрозумілої дисперсії, яку ви не враховуєте. Ви також можете це побачити, якщо ви аналізуєте повторні спостереження за тим самим, завдяки автокореляції. Це можна перевірити, побачивши, чи співвідносяться ваші залишки з вашою змінною часу або індексу. Якщо ваші залишки співвідносяться з вашими незалежними змінними, то ваша модель гетерокедастична (див.: Http://en.wikipedia.org/wiki/Heteroscedasticity). Ви повинні перевірити (якщо ви ще цього не зробили), чи нормально розподіляються ваші вхідні змінні, а якщо ні, то слід розглянути можливість масштабування чи перетворення ваших даних (найпоширеніші види - це журнал та квадратний корінь), щоб зробити їх більше нормалізується.

У випадку обох, і ваших залишків, і ваших незалежних змінних вам слід пройти QQ-Plot, а також виконати тест Колмогорова-Смірнова (саме ця реалізація іноді називається тестом Lilliefors), щоб переконатися, що ваші значення підходять до нормального розподілу.

Три речі, які швидко і можуть бути корисними при вирішенні цієї проблеми, - це вивчення медіани ваших залишків, вона повинна бути максимально близькою до нуля (середнє значення майже завжди буде нульовим внаслідок того, як вписується термін помилки при лінійній регресії), тест Дурбіна-Уотсона на автокореляцію у ваших залишках (особливо, як я вже згадував раніше, якщо ви переглядаєте багаторазові спостереження одних і тих самих речей), і виконання часткової залишкової ділянки допоможе вам шукати гетеросцедастичність та виснаження.


Велике спасибі. Ваше пояснення мені дуже допомагає.
Jfly

1
+1 Приємна, вичерпна відповідь. Я збираюся нітпік на 2 бали. "Якщо ваші залишки співвідносяться з вашими незалежними змінними, то ваша модель є гетероскедастичною" - я б сказав, що якщо дисперсія ваших залишків залежить від рівня незалежної змінної, то ви маєте гетероскедастичність. Крім того, я почув тести Колмогорова-Смірнова / Лілліфорса, описані як "сумно ненадійні", і в практиці я, безумовно, визнав це правдою. Краще зробити суб'єктивне визначення на основі графіку QQ або простої гістограми.
rolando2

4
Твердження, що "залишки вашої моделі ... не повинні співвідноситись із ... вашою ... залежною змінною", як правило, не відповідає дійсності, як це пояснено в інших відповідях на цій темі. Ви не хочете виправити цю публікацію?
gung - Відновіть Моніку

1
(-1) Я вважаю, що цей пост недостатньо актуальний для поставленого питання. Це добре як загальна порада, але, можливо, випадок "правильної відповіді на неправильну запитання".
ймовірністьлогічний
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.