22

У першому реченні цієї сторінки вікі стверджується, що "В економетрії проблема ендогенності виникає, коли пояснювальна змінна співвідноситься з терміном помилки. 1 "

Моє запитання: як це може статися? Чи не вибрано бета-регресію таким чином, щоб термін помилки був ортогональним для стовпчика простору матриці проектування?

regression

— північ
джерело

9

Бета-регресія вибирається такою, що залишковий ортогональний для стовпчика простору матриці проектування. І це може дати жахливу оцінку справжньої бета-версії, якщо термін помилки не є ортогональним для стовпчика простору дизайнерської матриці! (тобто, якщо ваша модель не відповідає припущенням, необхідним для послідовної оцінки коефіцієнтів за допомогою регресії).

— Меттью Ганн

3

Ортогональність терміна помилки та простору стовпців матриці проектування не є властивістю вашого методу оцінки (наприклад, звичайна регресія найменших квадратів), це властивість моделі (наприклад, ).

y_{i} = a + b x_{i} + ϵ_{i}

$y_i = a + b x_i + \epsilon_i$

— Меттью Ганн

Я думаю, що ваша редакція повинна стати новим питанням, оскільки ви, здається, істотно змінили те, про що ви просите. Ви завжди можете зв’язатись із цим. (Я думаю, що вам теж потрібно сказати це краще - коли ви пишете "який би був ефект", то мені не зрозуміло, на чому ? ") Зауважте, що запитання нового питання, як правило, приносить більше уваги, що було б перевагою для вас над редагуванням наявного.

— Срібна рибка

28

Ви плутаєте два типи терміна "помилка". Вікіпедія насправді має статтю, присвячену цьому розмежуванню помилок та залишків .

В МНК регресії, залишки (ваші оцінки залишкового члена або дійсно гарантовано бути корелюють з предикторів, припускаючи , що регрес містить вільний член. $\hat \varepsilon$

Але "справжні" помилки цілком можуть бути з ними співвіднесені, і це те, що вважається ендогенністю. $\varepsilon$

Щоб зробити все просто, розглянемо модель регресії (ви можете бачити, що це описано як базовий " процес генерування даних " або "DGP", теоретична модель, яка, як ми вважаємо, генерує значення ): $y$

y_{i} = β_{1} + β_{2} x_{i} + ε_{i}

$y_i = \beta_1 + \beta_2 x_i + \varepsilon_i$

В принципі, немає причини, чому не може бути співвіднесено з в нашій моделі, однак настільки, що ми хотіли б, щоб він не порушував стандартні припущення OLS таким чином. Наприклад, можливо, що залежить від іншої змінної, яка була опущена з нашої моделі, і це було включено в термін порушення ( - це те, де ми стикаємося з усіма речами, крім які впливають на ). Якщо ця опущена змінна також співвідноситься з , то в свою чергу буде співвідноситися з і ми маємо ендогенність (зокрема, зміщення опущеної змінної ). $x$ $\varepsilon$ $y$ $\varepsilon$ $x$ $y$ $x$ $\varepsilon$ $x$

Коли ви оцінюєте свою регресійну модель за наявними даними, ми отримуємо

y_{i} = {\hat{β}}_{1} + {\hat{β}}_{2} x_{i} + {\hat{ε}}_{i}

$y_i = \hat \beta_1 + \hat \beta_2 x_i + \hat \varepsilon_i$

Через способу МНК роботи *, залишки буде корелюють з . Але це не означає , що ми уникли ендогенні - це просто означає , що ми не можемо виявити його шляхом аналізу кореляції між і , що буде (до чисельної помилки) дорівнює нулю. І тому, що припущення OLS були порушені, ми більше не гарантуємо приємних властивостей, таких як неупередженість, ми так любимо в OLS. Наша оцінка буде зміщена. $\hat \varepsilon$ $x$ $\hat \varepsilon$ $x$ $\hat \beta_2$

Той фактщо некорреліровани з витікає безпосередньо з «нормальних рівнянь»ми використовуємощоб вибрати найкращі оцінки коефіцієнтів. $(*)$ $\hat \varepsilon$ $x$

Якщо ви не звикли до налаштування матриці, і я дотримуюся біваріантної моделі, використаної в моєму прикладі вище, тоді сума квадратичних залишків дорівнює і знайти оптимальне і $S(b_1, b_2) = \sum_{i=1}^n \varepsilon_i^2 = \sum_{i=1}^n (y_i-b_1 - b_2 x_i)^2$ $b_1 = \hat \beta_1$ які мінімізують це, ми знаходимо нормальні рівняння, насамперед умова першого порядку для передбачуваного перехоплення: $b_2 = \hat \beta_2$

\frac{\partial S}{\partial b_{1}} = \sum_{i = 1}^{n} - 2 (y_{i} - b_{1} - b_{2} x_{i}) = - 2 \sum_{i = 1}^{n} {\hat{ε}}_{i} = 0

$\frac{\partial S}{\partial b_1} = \sum_{i=1}^n -2(y_i-b_1 - b_2 x_i) = -2 \sum_{i=1}^n \hat \varepsilon_i = 0$

який показує , що сума (і , отже , середнє) із залишків дорівнює нулю, тому формула для ковариации між і будь-якої змінної зводиться до $\hat \varepsilon$ $x$ . Ми бачимо, що це дорівнює нулю, розглядаючи умову першого порядку для передбачуваного схилу, тобто це $\frac{1}{n-1} \sum_{i=1}^n x_i \hat \varepsilon_i$

\frac{\partial S}{\partial b_{2}} = \sum_{i = 1}^{n} - 2 x_{i} (y_{i} - b_{1} - b_{2} x_{i}) = - 2 \sum_{i = 1}^{n} x_{i} {\hat{ε}}_{i} = 0

$\frac{\partial S}{\partial b_2} = \sum_{i=1}^n -2 x_i (y_i-b_1 - b_2 x_i) = -2 \sum_{i=1}^n x_i \hat \varepsilon_i = 0$

Якщо ви звикли працювати з матрицями, ми можемо узагальнити це множинною регресією, визначивши ; умова першого порядку , щоб мінімізувати при оптимальній є: $S(b) = \varepsilon' \varepsilon = (y-Xb)'(y-Xb)$ $S(b)$ $b = \hat \beta$

\frac{d S}{d b} (\hat{β}) = \frac{d}{d b} (y^{'} y - b^{'} X^{'} y - y^{'} X b + b^{'} X^{'} X b) |_{b = \hat{β}} = - 2 X^{'} y + 2 X^{'} X \hat{β} = - 2 X^{'} (y - X \hat{β}) = - 2 X^{'} \hat{ε} = 0

$\frac{dS}{db}(\hat\beta) = \frac{d}{db}\bigg(y'y - b'X'y - y'Xb + b'X'Xb\bigg)\bigg|_{b=\hat\beta} = -2X'y + 2X'X\hat\beta = -2X'(y - X\hat\beta) = -2X'\hat \varepsilon = 0$

Це має на увазі кожен рядок , і , отже , кожен стовпець , ортогонально до . Тоді , якщо матриця плану має стовпець з одиниць (що відбувається , якщо ваша модель має вільний член), ми повинні мати , так що залишки мають нульову суму і нульове середнє значення. Коваріація між і будь-якої змінної знову $X'$ $X$ $\hat \varepsilon$ $X$ $\sum_{i=1}^n \hat \varepsilon_i = 0$ $\hat \varepsilon$ $x$ і для будь-якої змінноївключених в нашій моделі ми знаємоця сума дорівнює нулю, так ортогонален кожному колонку матриці планування. Отжеіснує нульова коваріація, і нульова кореляція між і будь-яким змінним провісником. $\frac{1}{n-1} \sum_{i=1}^n x_i \hat \varepsilon_i$ $x$ $\hat \varepsilon$ $\hat \varepsilon$ $x$

Якщо ви віддаєте перевагу більш геометричний погляд на речі , наше бажання , що лежить якомога ближче до в піфагорейської вигляді шляху , і той факт , що обмежена в просторі стовпців матриці плану , диктують має бути ортогональною проекцією спостережуваного на простір стовпця. Отже, вектор залишків ортогонален кожного стовпець , в тому числі вектора одиниць $\hat y$ $y$ $\hat y$ $X$ $\hat y$ $y$ $\hat \varepsilon = y - \hat y$ $X$ $\mathbf{1_n}$ якщо в модель включений термін перехоплення. Як і раніше, це означає, що сума залишків дорівнює нулю, а отже, ортогональність залишкового вектора з іншими стовпцями забезпечує його некорельованість з кожним із цих прогнокторів. $X$

Vectors in subject space of multiple regression

Але ніщо, що ми зробили тут, нічого не говорить про справжні помилки . Припускаючи , що існує термін перехоплює в нашій моделі, залишки тільки корелює з як математичним наслідком того , яким чином ми вибрали для оцінки коефіцієнтів регресії . Шлях ми вибрали нашу ; впливає на наші прогнозні значення і , отже , наші залишки . Якщо ми виберемо з допомогою МНК, ми повинні вирішити нормальні рівняння і їх дотримання , що наші оцінені невязки $\varepsilon$ $\hat \varepsilon$ $x$ $\hat \beta$ $\hat \beta$ $\hat y$ $\hat \varepsilon = y - \hat y$ $\hat \beta$ некоррелірованні з. Наш вибір впливає , а неіотжене накладає ніяких умов на справжні помилки. Було б помилкою думатищо якимто чином «успадкував» його uncorrelatedness зз припущеннящо МНКповинні бути корельовані з. Неспіввідношення виникає із звичайних рівнянь. $\hat \varepsilon$ $x$ $\hat \beta$ $\hat y$ $\mathbb{E}(y)$ $\varepsilon = y - \mathbb{E}(y)$ $\hat \varepsilon$ $x$ $\varepsilon$ $x$

— Срібна рибка
джерело

1

чи означає ваш

регресію за допомогою даних про населення? Або що це означає саме?

y_{i} = β_{1} + β_{2} x_{i} + ε_{i}

$y_i = \beta_1 + \beta_2 x_i + \varepsilon_i$

— денізені півночі

@ user1559897 Так, деякі підручники називатимуть це "лінією регресії населення" або PRL. Це основна теоретична модель для населення; Ви також можете побачити це в деяких джерелах під назвою "процес генерації даних". (Я схильний бути трохи обережним, кажучи, що це "регресія населення" ... якщо у вас є обмежене населення, наприклад, 50 штатів США, на яке ви здійснюєте регресію, то це не зовсім вірно Якщо ви фактично використовуєте населення на деяких даних у вашому програмному забезпеченні, ви дійсно говорите про передбачувану версію регресу з "капелюшками")

— Silverfish

Я думаю, я бачу, що ти кажеш. Якщо я вас правильно зрозумів, термін помилки в моделі

може мати ненульові очікування, оскільки це теоретичний процес генерації, а не ол регресія.

y_{i} = β_{1} + β_{2} x_{i} + ε_{i}

$y_i = \beta_1 + \beta_2 x_i + \varepsilon_i$

— денізені півночі

Це чудова відповідь з точки зору статистичних висновків. Як ви думаєте, який був би ефект, якщо головна проблема - точність прогнозування? Дивіться редагування публікації.

— денісен на півночі

16

Простий приклад:

Нехай - кількість гамбургерів, які я купую під час відвідування $x_{i,1}$ $i$
Нехай - кількість булочок, які я купую. $x_{i,2}$
Нехай - ціна бургер $b_1$
Нехай - ціна булочки. $b_2$
Незалежно від моїх закупок бургер і булочок, дозвольте мені витратити випадкову суму де - скалярна, а - середня нульова випадкова величина. Маємо . $a + \epsilon_i$ $a$ $\epsilon_i$ $\operatorname{E}[\epsilon_i | X] = 0$
Нехай будуть мої витрати на поїздку до продуктового магазину. $y_i$

Процес генерації даних:

y_{i} = a + b_{1} x_{i, 1} + b_{2} x_{i, 2} + ϵ_{i}

$y_i = a + b_1x_{i,1} + b_2x_{i,2} + \epsilon_i$

Якщо ми запускали цю регресію, ми отримаємо кошторис , і , і з достатнім кількістю даних, вони будуть сходитися на , і відповідно. $\hat{a}$ $\hat{b}_1$ $\hat{b}_2$ $a$ $b_1$ $b_2$

(Технічна примітка. Нам потрібно трохи випадковості, тому ми не купуємо рівно одну булочку за кожен бургер, який купуємо при кожному відвідуванні продуктового магазину. Якби ми це зробили, і були б колінеарними .) $x_1$ $x_2$

Приклад пропущеного зміщення змінного типу:

Тепер розглянемо модель:

y_{i} = a + b_{1} x_{i, 1} + u_{i}

$y_i = a + b_1x_{i,1} + u_i$

Зауважте, що . Звідси $u_i = b_2x_{i,2} + \epsilon_i$

\begin{aligned} Cov (x_{1}, u) & = Cov (x_{1}, b_{2} x_{2} + ϵ) \\ = b_{2} Cov (x_{1}, x_{2}) + Cov (x_{1}, ϵ) \\ = b_{2} Cov (x_{1}, x_{2}) \end{aligned}

$\begin{align*} \operatorname{Cov}(x_{1}, u) &= \operatorname{Cov}(x_1,b_2x_2 + \epsilon )\\ &= b_2 \operatorname{Cov}(x_{1},x_2) + \operatorname{Cov}(x_{1},\epsilon) \\ &= b_2 \operatorname{Cov}(x_{1},x_2) \end{align*}$

Це нуль? Майже напевно ні! Покупка гамбургерів та придбання булочок майже напевно співвідносяться! Отже, і співвідносяться! $x_1$ $x_2$ $u$ $x_1$

Що станеться, якщо ви спробували запустити регресію?

Якщо ви спробували запустити:

y_{i} = \hat{a} + {\hat{b}}_{1} x_{i, 1} + {\hat{u}}_{i}

$y_i = \hat{a} + \hat{b}_1 x_{i,1} + \hat{u}_i$

Ваша оцінка майже напевно буде поганою оцінкою , тому що МНК оцінки буде побудована таким чином , що і нескоррелірованние у вашій вибірці. Але фактичний корелює з у сукупності! $\hat{b}_1$ $b_1$ $\hat{a}, \hat{b}, \hat{u}$ $\hat{u}$ $x_1$ $u$ $x_1$

Що було б на практиці, якби ви це зробили? Ваша оцінка ціни гамбургери буде ТАКОЖ пікап ціна булочок. Скажімо, кожного разу, коли ви купували бургер на 1 долар, ви прагнули купувати булочку по 0,50 (але не весь час). Ваша оцінка ціни на гамбургери може становити 1,40 . Ви оцінювали бергерський канал і каналу булочки у вашій оцінці ціни на гамбургер. $\hat{b}_1$

— Меттью Ганн
джерело

Мені подобається твій приклад булочки з гамбургером. Ви пояснили проблему з точки зору статистичного висновку, тобто підсумовуючи вплив бургерів на ціну. Мені цікаво, який буде ефект, якщо все, що мені цікаво, це прогнозування, тобто прогнозування MSE на тестовому наборі даних? Інтуїція полягає в тому, що це не буде настільки добре, але чи є якась теорія, щоб зробити це більш точним? (це ввело більше упередженості, але меншу дисперсію, тому загальний ефект мені не видно.)

— північ,

1

@ User1559897 Якщо ви просто дбаєте про прогнозування витрат, то витрати прогнозування з використанням кількості гамбургерів і оцінки

, як близько $ 1,40 може працювати дуже добре. Якщо у вас є достатня кількість даних, використання кількості гамбургерів і булочок, безсумнівно, працювало б краще. У коротких зразках,

(LASSO) може направити один з коефіцієнтів

або

до нуля. Я думаю, ви правильно визнаєте, що те, що ви робите в регресії, є оцінкою функції умовного очікування. Моя думка в тому, що для цієї функції збору причинних наслідків вам потрібні додаткові припущення.

{\hat{b}}_{1}

$\hat{b}_1$

L_{1}

$L_1$

b_{1}

$b_1$

b_{2}

$b_2$

— Меттью Ганн

3

Припустимо, ми будуємо регресію ваги тварини на її зрості. Зрозуміло, що вагу дельфіна вимірювали б по-різному (за різних процедур та за допомогою різних інструментів) від ваги слона чи змії. Це означає, що помилки моделі будуть залежати від висоти, тобто пояснювальної змінної. Вони могли бути залежними різними способами. Наприклад, можливо, ми, як правило, трохи завищуємо ваги слонів і трохи недооцінюємо змії тощо.

Отже, тут ми встановили, що легко можна закінчити ситуацію, коли помилки співвідносяться із пояснювальними змінними. Тепер, якщо ми будемо ігнорувати це і перейти до регресії , як зазвичай, ми помітимо , що регресійні залишки є не корелюють з дизайном матриці. Це пояснюється тим, що, за задумом, регресія примушує залишки бути некорельованими. Відзначимо також , що залишки є НЕ ці помилки , вони по оцінкамипомилок. Отже, незалежно від того, корелюють самі помилки чи ні з незалежними змінними, оцінки помилок (залишків) будуть некорельовані побудовою рішення рівняння регресії.

— Aksakal
джерело

Як термін помилки регресії коли-небудь можна співвіднести із пояснювальними змінними?

Простий приклад:

Приклад пропущеного зміщення змінного типу:

Що станеться, якщо ви спробували запустити регресію?