Що станеться, якщо контрольні змінні також є ендогенними?


13

Я працюю в політичній економії, і багато моделей включають "невинні" контрольні змінні, такі як населення, нерівність, колоніальна спадщина тощо, щоб автор міг заявити про неупередженість щодо їх незалежної змінної інтересу.

Але якщо будь-яка з цих контрольних змінних є ендогенною для якоїсь опущеної змінної, чи це не забруднює неупередженість ВСІХ незалежних змінних?

Якщо це правда, то що ми можемо зробити? Залиште ці контрольні змінні поза, і вони призводять до опущеного зміщення змінної. Включіть їх, і вони забруднить все, що є в моделі.

Приклад: Дослідник хоче знати, чи нерівність призводить до насильства, і він контролює кілька речей: Бачачи, що нерівність , ймовірно, буде ендогенною (через опущену змінну Рівень альтруїзму

Violence=Inequality+Growth+Development+ϵ
), він спробує знайти інструментальну змінну для нерівності . Але хіба зростання та розвиток, ймовірно, не будуть ендогенними (тобто співвідносяться з рівнем альтруїзму )?

Цей приклад може виглядати нерозумно, але моя суть полягає в роботі з політичної економії / розвитку, є дуже багато факторів (поки що пропущено), що я боюся, що багато змінних, включених до LHS, є ендогенними. Але часто дослідник шукає інструмент лише для своєї домашньої тварини незалежної змінної.


Ще одна річ, яку слід врахувати, - це так зване питання "поганого контролю" - ситуація, коли контроль є самою змінною результатів. Я б запропонував вам прочитати розділ 3.2.3 у знаменитій «Здебільшого нешкідливій економетрії» Ангриста і Пішке, щоб зрозуміти цю тему і чому це важливо, якщо ви хочете краще зрозуміти своє питання.
MauOlivares

Відповіді:


10

"Але якщо будь-яка з цих контрольних змінних є ендогенною для якоїсь опущеної змінної, чи це не забруднює неупередженість ВСІХ незалежних змінних?"

Я не хочу занадто наголошувати на цьому, але варто згадати, що це взагалі не так. Наступна деривація, сподіваємось, дасть певне розуміння «забруднення», яке ви згадуєте. Як простий контрприклад, припустимо, що процес генерації даних задається де Z не помічено. Нехай C o v ( X 1 , Z ) = 0 , C o v ( X 2

Y=X1β1+X2β2+Zγ+ε,
ZCov(X1,Z)=0 , і C o v ( X 1 , X 2 ) = 0 . Тоді зрозуміло, що X 2 є "ендогенним". Але зауважте, що оскільки C o v ( X 1 , Z ) = 0 , наша оцінка β 1 все одно буде нормальною: plimCov(X2,Z)0Cov(X1,X2)=0X2Cov(X1,Z)=0β1 деX1 =M2X1іM2=[I-X2(X2 X2)-1X2 ]. Тому щоCov(X1,X2)=0,X1
plimβ^1=β1+γCov(X1,Z)Var(X1)=β1,
X1=M2X1M2=[IX2(X2X2)1X2]Cov(X1,X2)=0 . Тож C o v ( X 1 , Z ) = 0 .X1=X1Cov(X1,Z)=0

"Що ми можемо зробити?"

Однією з головних проблем виконання хорошої економетрики є розробка потенційних ідентифікаційних стратегій. У типі ситуації, яку ви описуєте, ви, мабуть, нічого не можете зробити, окрім як спробувати підійти до проблеми іншим способом.


Хоча ти технічно правий, я не наголошу на цьому. Я скоріше скажу, що загалом ми не можемо виключати необ’єктивності будь-якої зі змінних, замість того, щоб сказати в деяких сценаріях її добре , ну, тому що ми зазвичай не знаємо DGP.
FooBar

β^Cov(X1,Z)=0Cov(X1,X2)=0Cov(X1,X2)=0Cov(X1,X2)=0X2

@FooBar, я згоден. Я оновив пост, щоб підкреслити, що це особливий випадок. Щодо сенсу про невідомість DGP, це правда. Але це не сенс. Будь-який аналіз повинен робити припущення щодо DGP, і якість аналізу залежить від якості припущень. Висновок, який я дав, слугує лише для того, щоб проілюструвати приклад припущень (хоча і дуже сильних припущень), які могли б вас дістати туди, куди ви хочете піти.
jmbejara

Cov(X1,Z)=0Cov(X1,Z)=0YX1X2

1
@jmbejara Я розмістив 1) як окреме запитання . Будь ласка, не соромтесь відредагувати моє запитання / заголовок, оскільки я не знаю, як правильно розробити цю назву та корисно для Googler у цьому випадку.
Гейзенберг

6

Все занадто сильно, але, мабуть, деякі. Ця проблема називається «розмазуванням». Подивіться на доказ у записках про лекції Гріна на слайді 5.

Емілі Остер має приємний робочий документ (і команду Stata psacalc), яка може допомогти зв'язати зміщення.


5

У контексті оцінки найменших квадратів нам потрібно (намагатися) боротися з можливою ендогенністю регресорів через оцінку інструментальних змінних. Цей підхід не залежить від наявності лише одного ендогенного регресора - у вас може бути багато. У такому випадку, звичайно, потрібно знайти більше інструментів, які ускладнюють справи - але в принципі, метод буде працювати так само.

IV оцінка не вирішує питання упередженості, вона лише забезпечує узгодженість оцінки. Але ніщо не вирішує питання самої смуги жорсткої екзогенності (і тоді існують деякі методи зменшення зміщення). Але якщо ви подивитеся на інший сайт SE, Cross Validated , який стосується статистики, ви побачите, що досвідчені статистики насправді не надають великої ваги властивості неупередженості - вони зосереджуються на середньоквадратичній ефективності для властивостей кінцевих зразків, і на консистенцію для великих властивостей зразка.


1
Тож правильний підхід - це дійсно знайти інструменти для всіх ендогенних змінних, правда?
Гейзенберг

1
Так, це шлях.
Алекос Пападопулос

5

Це приклад того, що статистик Ендрю Гельман називає "помилкою контролю за проміжним результатом". Ось його опис цієї помилки спливає, коли дослідники запитують, чи має більше дочок змінити вашу політику. Рішення народити другу дитину обов'язково обумовлює попереднє рішення мати першу дитину, і тому здається явним прикладом контролю змінної рішення, який був ендогенним.

За останні кілька років було проведено декілька досліджень, що стосуються економічних рішень батьків синів порівняно з батьками дочок .... Загальною особливістю всіх цих досліджень є те, що вони контролюють загальну кількість дітей ... . На перший погляд, контроль за загальною кількістю дітей здається розумним. Однак існує складність у тому, що загальна кількість дітей є проміжним результатом, і контроль за нею (будь то підмноження даних на основі #kids або використання #kids як контрольної змінної в регресійній моделі) може змістити оцінку причинного наслідку народження сина (або дочки).

Щоб побачити це, припустимо (гіпотетично), що політично консервативні батьки частіше хочуть синів, а якщо у них є дві дочки, вони (гіпотетично) частіше намагаються спробувати третього малюка. Для порівняння, ліберали частіше зупиняються на двох дочках. У цьому випадку, якщо ви подивитеся на дані про сім’ї з двома дочками, консерватори будуть недостатньо представлені, і дані можуть свідчити про співвідношення дочок з політичним лібералізмом - навіть якщо мати дочок зовсім не впливає! ...

Рішення полягає в застосуванні стандартного консервативного (в статистичному розумінні!) Підходу до причинного висновку, який полягає в тому, щоб відновлювати свою змінну лікування (стать дитини), але контролювати лише те, що трапляється до народження дитини. Наприклад, можна порівняти батьків, у яких перша дитина - дівчинка, з батьками, перша дитина яких - хлопчик. Можна також подивитися на друге народження, порівнюючи батьків, чиєю другою дитиною є дівчинка, з тими, чия друга дитина є хлопчиком, які контролюють стать першої дитини. І так далі для третьої дитини тощо.

Чи маєте сини зробити вас більш консервативними? Можливо, може й ні. Проблема з контролем на проміжний результат

Що стосується Вашого коментаря, що "Залиште ці контрольні змінні поза, і вони самі призводять до упущеної зміщення змінної". Це, здається, залежить від того, який інструмент ви отримаєте. Хороший інструмент, який дійсно відповідає вимогам, повинен бути незалежним від терміну помилки на другому етапі та бути незалежним від усього іншого, яким ви безпосередньо керуєте . Тобто, інструмент змінюється Y лише через X. Отже, підходящий інструмент для нерівності повинен бути незалежним від зростання та розвитку (удачі, виявивши це!), Якщо ми вважаємо, що рівняння насильства є структурним рівнянням насильства.


1

Як вказували інші посади, ендогенні регресори можуть забруднювати всі оцінки параметрів при регресії, коли регресори співвідносяться.

X1X2X2X1

β^1X2X1X2

Розглянемо наступну модель (аналогічну нотації @ jmbejara)

y=X1β1+X2β2+Zγ+ε,

Zε1nx1(k)εp01nx2(k)εp0kX21nx1(k)z(l)p0(k,l)

X2X1X1ZX2

1nx1(k)QX2z(l)p0
(k,l)QX2X2QX2[InX2(X2X2)1X2]β1

β^1=(X1QX2X1)1X1QX2y=β1+(X1QX2X1)1X1QX2X2p0β2+(X1QX2X1)1X1QX2Zp0γ+(X1QX2X1)1X1QX2εp0
X1X2
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.