Як термін помилки регресії коли-небудь можна співвіднести із пояснювальними змінними?


22

У першому реченні цієї сторінки вікі стверджується, що "В економетрії проблема ендогенності виникає, коли пояснювальна змінна співвідноситься з терміном помилки. 1 "

Моє запитання: як це може статися? Чи не вибрано бета-регресію таким чином, щоб термін помилки був ортогональним для стовпчика простору матриці проектування?


9
Бета-регресія вибирається такою, що залишковий ортогональний для стовпчика простору матриці проектування. І це може дати жахливу оцінку справжньої бета-версії, якщо термін помилки не є ортогональним для стовпчика простору дизайнерської матриці! (тобто, якщо ваша модель не відповідає припущенням, необхідним для послідовної оцінки коефіцієнтів за допомогою регресії).
Меттью Ганн

3
Ортогональність терміна помилки та простору стовпців матриці проектування не є властивістю вашого методу оцінки (наприклад, звичайна регресія найменших квадратів), це властивість моделі (наприклад, ). yi=a+bxi+ϵi
Меттью Ганн

Я думаю, що ваша редакція повинна стати новим питанням, оскільки ви, здається, істотно змінили те, про що ви просите. Ви завжди можете зв’язатись із цим. (Я думаю, що вам теж потрібно сказати це краще - коли ви пишете "який би був ефект", то мені не зрозуміло, на чому ? ") Зауважте, що запитання нового питання, як правило, приносить більше уваги, що було б перевагою для вас над редагуванням наявного.
Срібна рибка

Відповіді:


28

Ви плутаєте два типи терміна "помилка". Вікіпедія насправді має статтю, присвячену цьому розмежуванню помилок та залишків .

В МНК регресії, залишки (ваші оцінки залишкового члена або дійсно гарантовано бути корелюють з предикторів, припускаючи , що регрес містить вільний член.ε^

Але "справжні" помилки цілком можуть бути з ними співвіднесені, і це те, що вважається ендогенністю.ε

Щоб зробити все просто, розглянемо модель регресії (ви можете бачити, що це описано як базовий " процес генерування даних " або "DGP", теоретична модель, яка, як ми вважаємо, генерує значення ):y

yi=β1+β2xi+εi

В принципі, немає причини, чому не може бути співвіднесено з ε в нашій моделі, однак настільки, що ми хотіли б, щоб він не порушував стандартні припущення OLS таким чином. Наприклад, можливо, що y залежить від іншої змінної, яка була опущена з нашої моделі, і це було включено в термін порушення ( ε - це те, де ми стикаємося з усіма речами, крім x, які впливають на y ). Якщо ця опущена змінна також співвідноситься з x , то ε в свою чергу буде співвідноситися з x, і ми маємо ендогенність (зокрема, зміщення опущеної змінної ).xεyεxyxεx

Коли ви оцінюєте свою регресійну модель за наявними даними, ми отримуємо

yi=β^1+β^2xi+ε^i

Через способу МНК роботи *, залишки ε буде корелюють з х . Але це не означає , що ми уникли ендогенні - це просто означає , що ми не можемо виявити його шляхом аналізу кореляції між е і х , що буде (до чисельної помилки) дорівнює нулю. І тому, що припущення OLS були порушені, ми більше не гарантуємо приємних властивостей, таких як неупередженість, ми так любимо в OLS. Наша оцінка β 2 буде зміщена.ε^xε^xβ^2


Той фактщо ε некорреліровани з ї витікає безпосередньо з «нормальних рівнянь»ми використовуємощоб вибрати найкращі оцінки коефіцієнтів.()ε^x

Якщо ви не звикли до налаштування матриці, і я дотримуюся біваріантної моделі, використаної в моєму прикладі вище, тоді сума квадратичних залишків дорівнює і знайти оптимальне б 1 = & beta ; 1 і б 2 =S(b1,b2)=i=1nεi2=i=1n(yib1b2xi)2b1=β^1які мінімізують це, ми знаходимо нормальні рівняння, насамперед умова першого порядку для передбачуваного перехоплення:b2=β^2

Sb1=i=1n2(yib1b2xi)=2i=1nε^i=0

який показує , що сума (і , отже , середнє) із залишків дорівнює нулю, тому формула для ковариации між е і будь-якої змінної х зводиться до 1ε^x. Ми бачимо, що це дорівнює нулю, розглядаючи умову першого порядку для передбачуваного схилу, тобто це1n1i=1nxiε^i

Sb2=i=1n2xi(yib1b2xi)=2i=1nxiε^i=0

Якщо ви звикли працювати з матрицями, ми можемо узагальнити це множинною регресією, визначивши ; умова першого порядку , щоб мінімізувати S ( б ) при оптимальній б = β є:S(b)=εε=(yXb)(yXb)S(b)b=β^

dSdb(β^)=ddb(yybXyyXb+bXXb)|b=β^=2Xy+2XXβ^=2X(yXβ^)=2Xε^=0

Це має на увазі кожен рядок , і , отже , кожен стовпець X , ортогонально до ε . Тоді , якщо матриця плану X має стовпець з одиниць (що відбувається , якщо ваша модель має вільний член), ми повинні мати Е п я = 1 ε я = 0 , так що залишки мають нульову суму і нульове середнє значення. Коваріація між е і будь-якої змінної х знову 1XXε^Xi=1nε^i=0ε^xі для будь-якої змінноїхвключених в нашій моделі ми знаємоця сума дорівнює нулю, так як ε ортогонален кожному колонку матриці планування. Отжеіснує нульова коваріація, і нульова кореляція між е і будь-яким змінним провісникомх.1n1i=1nxiε^ixε^ε^x

Якщо ви віддаєте перевагу більш геометричний погляд на речі , наше бажання , що у лежить якомога ближче до у в піфагорейської вигляді шляху , і той факт , що у обмежена в просторі стовпців матриці плану X , диктують y має бути ортогональною проекцією спостережуваного y на простір стовпця. Отже, вектор залишків ε = у - у ортогонален кожного стовпець X , в тому числі вектора одиниць 1 пy^y y^Xy^yε^=yy^X1nякщо в модель включений термін перехоплення. Як і раніше, це означає, що сума залишків дорівнює нулю, а отже, ортогональність залишкового вектора з іншими стовпцями забезпечує його некорельованість з кожним із цих прогнокторів.X

Vectors in subject space of multiple regression

Але ніщо, що ми зробили тут, нічого не говорить про справжні помилки . Припускаючи , що існує термін перехоплює в нашій моделі, залишки ε тільки корелює з ї як математичним наслідком того , яким чином ми вибрали для оцінки коефіцієнтів регресії р . Шлях ми вибрали нашу & beta ; впливає на наші прогнозні значення у і , отже , наші залишки ε = у - у . Якщо ми виберемо β з допомогою МНК, ми повинні вирішити нормальні рівняння і їх дотримання , що наші оцінені невязкиεε^xβ^β^y^ε^=yy^β^ некоррелірованні зї. Наш вибір р впливає на у , а неЕ(у)іотжене накладає ніяких умов на справжні помилкие=у-Е(у). Було б помилкою думатищо ε якимто чином «успадкував» його uncorrelatedness зхз припущеннящо МНКεповинні бути корельовані зх. Неспіввідношення виникає із звичайних рівнянь.ε^xβ^y^E(y)ε=yE(y)ε^xεx


1
чи означає ваш регресію за допомогою даних про населення? Або що це означає саме? yi=β1+β2xi+εi
денізені півночі

@ user1559897 Так, деякі підручники називатимуть це "лінією регресії населення" або PRL. Це основна теоретична модель для населення; Ви також можете побачити це в деяких джерелах під назвою "процес генерації даних". (Я схильний бути трохи обережним, кажучи, що це "регресія населення" ... якщо у вас є обмежене населення, наприклад, 50 штатів США, на яке ви здійснюєте регресію, то це не зовсім вірно Якщо ви фактично використовуєте населення на деяких даних у вашому програмному забезпеченні, ви дійсно говорите про передбачувану версію регресу з "капелюшками")
Silverfish

Я думаю, я бачу, що ти кажеш. Якщо я вас правильно зрозумів, термін помилки в моделі може мати ненульові очікування, оскільки це теоретичний процес генерації, а не ол регресія. yi=β1+β2xi+εi
денізені півночі

Це чудова відповідь з точки зору статистичних висновків. Як ви думаєте, який був би ефект, якщо головна проблема - точність прогнозування? Дивіться редагування публікації.
денісен на півночі

16

Простий приклад:

  • Нехай - кількість гамбургерів, які я купую під час відвідування ixi,1i
  • Нехай - кількість булочок, які я купую.xi,2
  • Нехай - ціна бургерb1
  • Нехай - ціна булочки.b2
  • Незалежно від моїх закупок бургер і булочок, дозвольте мені витратити випадкову суму де a - скалярна, а ϵ i - середня нульова випадкова величина. Маємо E [ ϵ i | X ] = 0 .a+ϵiaϵiE[ϵi|X]=0
  • Нехай будуть мої витрати на поїздку до продуктового магазину.yi

Процес генерації даних:

yi=a+b1xi,1+b2xi,2+ϵi

Якщо ми запускали цю регресію, ми отримаємо кошторис , б 1 і б 2 , і з достатнім кількістю даних, вони будуть сходитися на , б 1 і б 2 відповідно.a^b^1b^2ab1b2

(Технічна примітка. Нам потрібно трохи випадковості, тому ми не купуємо рівно одну булочку за кожен бургер, який купуємо при кожному відвідуванні продуктового магазину. Якби ми це зробили, і х 2 були б колінеарними .)x1x2

Приклад пропущеного зміщення змінного типу:

Тепер розглянемо модель:

yi=a+b1xi,1+ui

Зауважте, що . Звідси Cov ( x 1 , u )ui=b2xi,2+ϵi

Cov(x1,u)=Cov(x1,b2x2+ϵ)=b2Cov(x1,x2)+Cov(x1,ϵ)=b2Cov(x1,x2)

Це нуль? Майже напевно ні! Покупка гамбургерів та придбання булочок х 2 майже напевно співвідносяться! Отже, u і x 1 співвідносяться!x1x2ux1

Що станеться, якщо ви спробували запустити регресію?

Якщо ви спробували запустити:

yi=a^+b^1xi,1+u^i

Ваша оцінка б 1 майже напевно буде поганою оцінкою Ь 1 , тому що МНК оцінки а , б , у буде побудована таким чином , що у і х 1 нескоррелірованние у вашій вибірці. Але фактичний u корелює з x 1 у сукупності!b^1b1a^,b^,u^u^x1ux1

Що було б на практиці, якби ви це зробили? Ваша оцінка б 1 ціни гамбургери буде ТАКОЖ пікап ціна булочок. Скажімо, кожного разу, коли ви купували бургер на 1 долар, ви прагнули купувати булочку по 0,50 долара (але не весь час). Ваша оцінка ціни на гамбургери може становити 1,40 долара . Ви оцінювали бергерський канал і каналу булочки у вашій оцінці ціни на гамбургер.b^1


Мені подобається твій приклад булочки з гамбургером. Ви пояснили проблему з точки зору статистичного висновку, тобто підсумовуючи вплив бургерів на ціну. Мені цікаво, який буде ефект, якщо все, що мені цікаво, це прогнозування, тобто прогнозування MSE на тестовому наборі даних? Інтуїція полягає в тому, що це не буде настільки добре, але чи є якась теорія, щоб зробити це більш точним? (це ввело більше упередженості, але меншу дисперсію, тому загальний ефект мені не видно.)
північ,

1
@ User1559897 Якщо ви просто дбаєте про прогнозування витрат, то витрати прогнозування з використанням кількості гамбургерів і оцінки б 1 , як близько $ 1,40 може працювати дуже добре. Якщо у вас є достатня кількість даних, використання кількості гамбургерів і булочок, безсумнівно, працювало б краще. У коротких зразках, нормалізація L 1 (LASSO) може направити один з коефіцієнтів b 1 або b 2 до нуля. Я думаю, ви правильно визнаєте, що те, що ви робите в регресії, є оцінкою функції умовного очікування. Моя думка в тому, що для цієї функції збору причинних наслідків вам потрібні додаткові припущення. b^1L1b1b2
Меттью Ганн

3

Припустимо, ми будуємо регресію ваги тварини на її зрості. Зрозуміло, що вагу дельфіна вимірювали б по-різному (за різних процедур та за допомогою різних інструментів) від ваги слона чи змії. Це означає, що помилки моделі будуть залежати від висоти, тобто пояснювальної змінної. Вони могли бути залежними різними способами. Наприклад, можливо, ми, як правило, трохи завищуємо ваги слонів і трохи недооцінюємо змії тощо.

Отже, тут ми встановили, що легко можна закінчити ситуацію, коли помилки співвідносяться із пояснювальними змінними. Тепер, якщо ми будемо ігнорувати це і перейти до регресії , як зазвичай, ми помітимо , що регресійні залишки є не корелюють з дизайном матриці. Це пояснюється тим, що, за задумом, регресія примушує залишки бути некорельованими. Відзначимо також , що залишки є НЕ ці помилки , вони по оцінкамипомилок. Отже, незалежно від того, корелюють самі помилки чи ні з незалежними змінними, оцінки помилок (залишків) будуть некорельовані побудовою рішення рівняння регресії.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.