Чому помилка вимірювання у змінній залежної змінної не змінює результати?

10

Коли в незалежній змінній є помилка вимірювання, я зрозумів, що результати будуть зміщені проти 0. Коли залежна змінна вимірюється помилкою, вони говорять, що це просто впливає на стандартні помилки, але це не має для мене особливого сенсу, оскільки ми оцінка ефекту не на вихідну змінну а на деяку іншу плюс помилку. То як це не впливає на оцінки? Чи можу я також використовувати інструментальні змінні для усунення цієї проблеми? $X$ $Y$ $Y$

regression econometrics instrumental-variables

— TomCat
джерело

17

Коли ви хочете оцінити просту модель на зразок а замість справжнього ви спостерігаєте її лише з деякою помилкою яка така, що це корелює з і , якщо ви регрес вашої оцінок є

Y_{i} = α + β X_{i} + ϵ_{i}

$Y_i = \alpha + \beta X_i + \epsilon_i$

Y_{i}

$Y_i$

{\tilde{Y}}_{i} = Y_{i} + ν_{i}

$\widetilde{Y}_i = Y_i + \nu_i$

X

$X$

ϵ

$\epsilon$

{\tilde{Y}}_{i} = α + β X_{i} + ϵ_{i}

$\widetilde{Y}_i = \alpha + \beta X_i + \epsilon_i$

β

$\beta$

\begin{aligned} \hat{β} & = \frac{C o v ({\tilde{Y}}_{i}, X_{i})}{V a r (X_{i})} \\ = \frac{C o v (Y_{i} + ν_{i}, X_{i})}{V a r (X_{i})} \\ = \frac{C o v (α + β X_{i} + ϵ_{i} + ν_{i}, X_{i})}{V a r (X_{i})} \\ = \frac{C o v (α, X_{i})}{V a r (X_{i})} + β \frac{C o v (X_{i}, X_{i})}{V a r (X_{i})} + \frac{C o v (ϵ_{i}, X_{i})}{V a r (X_{i})} + \frac{C o v (ν_{i}, X_{i})}{V a r (X_{i})} \\ = β \frac{V a r (X_{i})}{V a r (X_{i})} \\ = β \end{aligned}

$\begin{align} \widehat{\beta} &= \frac{Cov(\widetilde{Y}_i,X_i)}{Var(X_i)} \newline &= \frac{Cov(Y_i + \nu_i,X_i)}{Var(X_i)} \newline &= \frac{Cov(\alpha + \beta X_i + \epsilon_i + \nu_i,X_i)}{Var(X_i)} \newline &= \frac{Cov(\alpha ,X_i)}{Var(X_i)} + \beta\frac{Cov(X_i,X_i)}{Var(X_i)} + \frac{Cov(\epsilon_i,X_i)}{Var(X_i)} + \frac{Cov(\nu_i,X_i)}{Var(X_i)} \newline &= \beta \frac{Var(X_i)}{Var(X_i)} \newline &= \beta \end{align}$ тому що коваріація між випадкова змінна та константа (

α

$\alpha$ ) дорівнює нулю, а також коваріанці між

X_{i}

$X_i$ та

ϵ_{i}, ν_{i}

$\epsilon_i, \nu_i$ оскільки ми припустили, що вони некорельовані.

Отже, ви бачите, що ваш коефіцієнт послідовно оцінюється. лише те, що дає вам додатковий термін у помилці, що зменшує потужність ваших статистичних тестів. У дуже поганих випадках такої похибки вимірювання в залежній змінній ви не можете знайти значного ефекту, навіть якщо він може бути наявним. Як правило, інструментальні змінні вам не допоможуть у цьому випадку, оскільки вони, як правило, навіть неточніші, ніж OLS, і вони можуть допомогти лише з помилкою вимірювання в пояснювальній змінній. $\widetilde{Y}_i = Y_i + \nu_i = \alpha + \beta X_i + \epsilon_i + \nu_i$

— Енді
джерело

У мене тут є просте запитання: що робити, якщо νi, що є похибкою вимірювання в залежній змінній, співвідноситься з незалежною змінною, що цікавить? Я думаю, існує багато можливостей, що це може статися, і приклад соціального бажаності може бути прикладом. Якщо респонденти опитувались упередженнями щодо соціальної бажаності під час відповіді на залежний опитувальник (змінну) і якщо ця бажаність була пов'язана з незалежною змінною, скажімо, вік або стать (що, можливо, може бути пов'язано з соціальною бажаністю), що відбувається в умови ендогенності тоді?

— Кан Інкю

3

Регресійний аналіз дає відповідь на питання: "Яке значення середнього значення Y для тих, хто дав значення X?" або, що рівно, "На скільки прогнозується Y зміниться НА СЕРЕДНЕ, якщо ми змінимо X на одну одиницю?" Випадкова похибка вимірювання не змінює середні значення змінної або середні значення для підмножини індивідів, тому випадкова помилка залежної змінної не буде оцінювати регресійні оцінки.

Скажімо, у вас є дані про висоту на вибірці особин. Ці висоти дуже точно виміряні, точно відображають справжній ріст кожного. У межах вибірки середнє значення для чоловіків становить 175 см, а середнє для жінок - 162 див. Якщо ви використовуєте регресію для обчислення того, наскільки ґендер прогнозує висоту, ви оцінюєте модель

$\mathit{HEIGHT = CONSTANT + β * GENDER + RESIDUAL}$

Якщо жінки кодуються як 0, а чоловіки - 1, - середня жінка, або 162 см. Коефіцієнт регресії показує, наскільки змінюється висота НА СЕРЦІ, коли ви змінюєте на одну одиницю (від 0 до 1). дорівнює 13, тому що серед людей, значення яких для дорівнює 0 (жінки), середній зріст становить 162 см, тоді як люди, значення для - 1 (чоловіки), мають середній зріст 175 " см; оцінює середню різницю між чоловічими та жіночими висотами, що становить 13 див. ( відображає різницю між статтю у висоті.) $\mathit{CONSTANT}$ $\mathit{β}$ $\mathit{GENDER}$ $\mathit{β}$ $\mathit{GENDER}$ $\mathit{GENDER}$ $\mathit{β}$ $\mathit{RESIDUAL}$

Тепер, якщо довільно додати -1 см або +1 см до справжнього зросту кожного, що буде? Особи, фактичний зріст яких, скажімо, становить 170 см, тепер будуть повідомлятися про 169 або 171 см. Однак середнє значення для вибірки чи будь-якої підпроби не зміниться. Ті, чий фактичний зріст становить 170 см, становитимуть в середньому 170 см у новому, помилковому наборі даних, жінки в середньому становлять 162 см і т. Д. Якщо ви будете повторно вказати вище регресійну модель, використовуючи цей новий набір даних, (очікуване) значення не зміниться, оскільки середня різниця між чоловіками та жінками все ще становить 13 см, незалежно від похибки вимірювання. (Стандартна помилка буде більшою, ніж раніше, тому що дисперсія залежної змінної тепер більша.) $\mathit{β}$ $\mathit{β}$

Якщо в незалежній змінній є помилка вимірювання, а не залежна змінна, буде упередженою оцінкою. Це легко зрозуміти, якщо розглядати приклад висоти. Якщо у змінній є випадкова помилка вимірювання , деякі чоловіки будуть помилково кодовані як жінки та навпаки. Ефект цього полягає у зменшенні очевидних статевих різниць у зрості, оскільки переміщення самців до жіночої групи зробить жіночу середню більшою, тоді як переміщення жінок до чоловічої групи зробить середнього віку чоловіка меншим. З похибкою вимірювання в незалежній змінній буде нижчою, ніж неупереджене значення на 13 див. $\mathit{β}$ $\mathit{GENDER}$ $\mathit{β}$

Хоча я тут використовував категоричну незалежну змінну ( ) для простоти, та ж логіка застосовується до безперервних змінних. Наприклад, якщо ви використовували суцільну змінну, наприклад висоту народження, для прогнозування росту дорослого, очікуване значення буде однаковим, незалежно від кількості випадкових помилок у вимірах висоти дорослих. $\mathit{GENDER}$ $\mathit{β}$

— користувач175057
джерело