Щоб відповісти на ваше перше запитання, ви впевнені, що вибір вибірки є специфічною формою ендогенності (Див. Antonakis et al. 2010 для хорошого базового огляду ендогенності та загальних засобів), однак ви неправі, говорячи про ймовірність лікування. є ендогенною змінною, оскільки саме змінна терапія ("невипадкове призначення лікування") - а не ймовірність лікування - є ендогенною при відборі вибірки. Нагадаємо, що ендогенність стосується ситуації, коли ви неправильно визначили причинно-наслідковий зв’язок між фактором X і фактором Y, коли спостережуваний "зв'язок" насправді пов'язаний з іншим фактором Z, який впливає і на X, і на Y. По-іншому, задавши регресійну модель :
yi=β0+β1xi+...+ϵi
ендогенність виникає, коли один або більше ніж один із ваших прогнозів пов'язаний із терміном помилки в моделі. Тобто, коли .Cov(x,ϵ)≠0
До загальних причин ендогенності належать:
- Пропущені змінні (деякі речі ми просто не можемо виміряти)
- Мотивація / вибір
- Здібність / талант
- Самовибір
- Помилка вимірювання
(ми хотіли б включити , але спостерігаємо лише x j ∗ )xjxj∗
- Одночасність / двонаправленість (у дітей до 5 років співвідношення між показником харчового статусу «вагою для віку» та тим, чи була у дитини нещодавня хвороба, може бути одночасною.
Різні типи проблем потребують дещо різних рішень, саме тут лежить різниця між виправленнями IV та Гекмана. Звичайно, існують відмінності в основній механіці цих методів, але передумова однакова: полягає у видаленні ендогенності, в ідеалі шляхом обмеження виключення, тобто одного або декількох інструментів у випадку IV або змінної, що впливає на вибір, але не результат у справі Гекмана.
Щоб відповісти на ваше друге запитання, ви повинні подумати про відмінності у типах обмежень даних, які спричинили розробку цих рішень. Мені подобається думати, що підхід інструментальної змінної (IV) застосовується тоді, коли одна чи кілька змінних є ендогенними, і просто не існує хороших проксі-сервісів, які можна застосувати в моделі для видалення ендогенності, але коваріати та результати спостерігаються для всіх спостережень. Виправлення Хекмана, з іншого боку, використовуються, коли ви маєте усічення, тобто інформація не спостерігається для тих, хто є у вибірці, де значення змінної вибору == 0.
Підхід інструментальної змінної (IV)
Подумайте класичний економетричний приклад для IV регресії з двоступеневим оцінювачем найменших квадратів (2SLS): вплив освіти на заробіток.
(1)Earningsi=β0+β1OwnEdi+ϵi
Тут рівень навчальних досягнень є ендогенним, оскільки він частково визначається мотивацією та здібностями індивіда, що також впливає на заробіток людини. Мотивація та здібності, як правило, не вимірюються в обстеженнях домогосподарств чи економічних питань. Отже, рівняння 1 може бути записане так, щоб явно включати мотивацію та вміння:
(2)Earningsi=β0+{β1OwnEdi+β2Motivi+β3Abili}+ϵi
Оскільки і A b i l насправді не спостерігаються, рівняння 2 можна записати так:MotivAbil
(3),Earningsi=β0+β1OwnEdi+ui
де (4).ui=β2Motivi+β3Abili+ϵi
Тому наївна оцінка впливу освіти на заробіток через OLS була б упередженою. Цю частину ви вже знаєте.
У минулому люди використовували освіту батьків як інструменти для власного рівня освіти суб'єкта, оскільки вони відповідають трьом вимогам до чинного інструменту ( ):z
- повинен бути пов'язаний з ендогенним предиктором - 𝐶 𝑜 𝑣 ( 𝑧 , 𝑥 ) ≠ 0 ,zCov(z,x)≠0
- не може бути безпосередньо пов'язаний з результатом - 𝐶 𝑜 𝑣 ( 𝑧 , 𝑦 ) = 0 іzCov(z,y)=0
- не може бути пов'язано з неспостережуваною (u) характеристикою (тобто z є екзогенною) - 𝐶 𝑜 𝑣 ( 𝑧 , 𝑢 ) = 0zzCov(z,u)=0
Коли ви оцінюєте освіту суб'єкта ( ), використовуючи освіту батьків ( M o m E d і D a d E d ) на першому етапі, і використовуйте передбачуване значення освіти ( ^ O w n E d ) для оцінки E a r n i n g s на другому етапі, ви (дуже спрощено) оцінюючи E a r n i n g O w n EOwnEdMomEdDadEdOwnEdˆEarnings на основі частиниEarningsOwnEd that is not determined by motivation/ability.
Heckman-type corrections
As we have established before, non-random sample selection is a specific type of endogeneity. In this case, the omitted variable is how people were selected into the sample. Typically, when you have a sample selection problem, your outcome is observed only for those for whom the sample selection variable == 1
. This problem is also known as "incidental truncation," and the solution is commonly known as a Heckman correction. The classic example in econometrics is the wage offer of married women:
Wagei=β0+β1Educi+β2Experiencei+β3Experience2i+ϵi (5)
Wages
Wage∗i=Xβ′+ϵi
LaborForce∗i=Zγ′+νi (7)
That is, Wage=Wage∗i IFF LaborForce∗i>0 and Wage=. IFF LaborForce∗i≤0
The solution here is therefore to predict the likelihood of participation in the labor force at first stage using a probit model and the exclusion restriction (the same criteria for valid instruments apply here), calculate the predicted inverse Mills ratio (λ^) for each observation, and in second stage, estimate the wage offer using the λ^ as a predictor in the model (Wooldridge 2009). If the coefficient on λ^ is statistically equal to zero, there is no evidence of sample selection (endogeneity), and OLS results are consistent and can be presented. If the coefficient on λ^ is statistically significantly different from zero, you will need to report the coefficients from the corrected model.
References
- Antonakis, John, Samuel Bendahan, Philippe Jacquart, and Rafael
Lalive. 2010. “On Making Causal Claims: A Review and
Recommendations.” The Leadership Quarterly 21 (6): 1086–1120.
doi:10.1016/j.leaqua.2010.10.010.
- Wooldridge, Jeffrey M. 2009.
Introductory Econometrics: A Modern Approach. 4th ed. Mason, OH,
USA: South-Western, Cengage Learning.