Двоступеневі моделі: різниця між моделями Гекмана (для вирішення відбору вибірки) та інструментальними змінними (для боротьби з ендогенністю)


16

Я намагаюся обміняти різницю між відбором вибірки та ендогенністю, і в свою чергу, чим моделі Гекмана (для вирішення відбору вибірки) відрізняються від інструментальних змінних регресій (для боротьби з ендогенністю).

Чи правильно сказати, що відбір вибірки - це специфічна форма ендогенності, де ендогенна змінна - це ймовірність лікування?

Крім того, мені здається, що і моделі Гекмана, і IV регресія - це 2-ступінчасті моделі, де перший етап прогнозує ймовірність лікування - я припускаю, що вони повинні відрізнятися з точки зору того, що вони роблять емпірично, їх цілей та припущень, але як?

Відповіді:


23

Щоб відповісти на ваше перше запитання, ви впевнені, що вибір вибірки є специфічною формою ендогенності (Див. Antonakis et al. 2010 для хорошого базового огляду ендогенності та загальних засобів), однак ви неправі, говорячи про ймовірність лікування. є ендогенною змінною, оскільки саме змінна терапія ("невипадкове призначення лікування") - а не ймовірність лікування - є ендогенною при відборі вибірки. Нагадаємо, що ендогенність стосується ситуації, коли ви неправильно визначили причинно-наслідковий зв’язок між фактором X і фактором Y, коли спостережуваний "зв'язок" насправді пов'язаний з іншим фактором Z, який впливає і на X, і на Y. По-іншому, задавши регресійну модель :

yi=β0+β1xi+...+ϵi

ендогенність виникає, коли один або більше ніж один із ваших прогнозів пов'язаний із терміном помилки в моделі. Тобто, коли .Cov(x,ϵ)0

До загальних причин ендогенності належать:

  1. Пропущені змінні (деякі речі ми просто не можемо виміряти)
    • Мотивація / вибір
    • Здібність / талант
    • Самовибір
  2. Помилка вимірювання (ми хотіли б включити , але спостерігаємо лише x j )xjxj
  3. Одночасність / двонаправленість (у дітей до 5 років співвідношення між показником харчового статусу «вагою для віку» та тим, чи була у дитини нещодавня хвороба, може бути одночасною.

Різні типи проблем потребують дещо різних рішень, саме тут лежить різниця між виправленнями IV та Гекмана. Звичайно, існують відмінності в основній механіці цих методів, але передумова однакова: полягає у видаленні ендогенності, в ідеалі шляхом обмеження виключення, тобто одного або декількох інструментів у випадку IV або змінної, що впливає на вибір, але не результат у справі Гекмана.

Щоб відповісти на ваше друге запитання, ви повинні подумати про відмінності у типах обмежень даних, які спричинили розробку цих рішень. Мені подобається думати, що підхід інструментальної змінної (IV) застосовується тоді, коли одна чи кілька змінних є ендогенними, і просто не існує хороших проксі-сервісів, які можна застосувати в моделі для видалення ендогенності, але коваріати та результати спостерігаються для всіх спостережень. Виправлення Хекмана, з іншого боку, використовуються, коли ви маєте усічення, тобто інформація не спостерігається для тих, хто є у вибірці, де значення змінної вибору == 0.

Підхід інструментальної змінної (IV)

Подумайте класичний економетричний приклад для IV регресії з двоступеневим оцінювачем найменших квадратів (2SLS): вплив освіти на заробіток.

(1)Earningsi=β0+β1OwnEdi+ϵi

Тут рівень навчальних досягнень є ендогенним, оскільки він частково визначається мотивацією та здібностями індивіда, що також впливає на заробіток людини. Мотивація та здібності, як правило, не вимірюються в обстеженнях домогосподарств чи економічних питань. Отже, рівняння 1 може бути записане так, щоб явно включати мотивацію та вміння:

(2)Earningsi=β0+{β1OwnEdi+β2Motivi+β3Abili}+ϵi

Оскільки і A b i l насправді не спостерігаються, рівняння 2 можна записати так:MotivAbil

(3),Earningsi=β0+β1OwnEdi+ui

де (4).ui=β2Motivi+β3Abili+ϵi

Тому наївна оцінка впливу освіти на заробіток через OLS була б упередженою. Цю частину ви вже знаєте.

У минулому люди використовували освіту батьків як інструменти для власного рівня освіти суб'єкта, оскільки вони відповідають трьом вимогам до чинного інструменту ( ):z

  1. повинен бути пов'язаний з ендогенним предиктором - 𝐶 𝑜 𝑣 ( 𝑧 , 𝑥 ) 0 ,z𝐶𝑜𝑣(𝑧,𝑥)0
  2. не може бути безпосередньо пов'язаний з результатом - 𝐶 𝑜 𝑣 ( 𝑧 , 𝑦 ) = 0 іz𝐶𝑜𝑣(𝑧,𝑦)=0
  3. не може бути пов'язано з неспостережуваною (u) характеристикою (тобто z є екзогенною) - 𝐶 𝑜 𝑣 ( 𝑧 , 𝑢 ) = 0zz𝐶𝑜𝑣(𝑧,𝑢)=0

Коли ви оцінюєте освіту суб'єкта ( ), використовуючи освіту батьків ( M o m E d і D a d E d ) на першому етапі, і використовуйте передбачуване значення освіти ( ^ O w n E d ) для оцінки E a r n i n g s на другому етапі, ви (дуже спрощено) оцінюючи E a r n i n g O w n EOwnEdMomEdDadEdOwnEd^Earnings на основі частиниEarningsOwnEd that is not determined by motivation/ability.

Heckman-type corrections

As we have established before, non-random sample selection is a specific type of endogeneity. In this case, the omitted variable is how people were selected into the sample. Typically, when you have a sample selection problem, your outcome is observed only for those for whom the sample selection variable == 1. This problem is also known as "incidental truncation," and the solution is commonly known as a Heckman correction. The classic example in econometrics is the wage offer of married women:

Wagei=β0+β1Educi+β2Experiencei+β3Experiencei2+ϵi (5)

Wages

Wagei=Xβ+ϵi

LaborForcei=Zγ+νi (7)

That is, Wage=Wagei IFF LaborForcei>0 and Wage=. IFF LaborForcei0

The solution here is therefore to predict the likelihood of participation in the labor force at first stage using a probit model and the exclusion restriction (the same criteria for valid instruments apply here), calculate the predicted inverse Mills ratio (λ^) for each observation, and in second stage, estimate the wage offer using the λ^ as a predictor in the model (Wooldridge 2009). If the coefficient on λ^ is statistically equal to zero, there is no evidence of sample selection (endogeneity), and OLS results are consistent and can be presented. If the coefficient on λ^ is statistically significantly different from zero, you will need to report the coefficients from the corrected model.

References

  1. Antonakis, John, Samuel Bendahan, Philippe Jacquart, and Rafael Lalive. 2010. “On Making Causal Claims: A Review and Recommendations.” The Leadership Quarterly 21 (6): 1086–1120. doi:10.1016/j.leaqua.2010.10.010.
  2. Wooldridge, Jeffrey M. 2009. Introductory Econometrics: A Modern Approach. 4th ed. Mason, OH, USA: South-Western, Cengage Learning.

1
In Heckman-type correction, how to interprete inverse Mills ratio values for each observation? Does it says the number of people who will work from the non-working population at a given moment?
Quirik

2

One should make a distinction between the specific Heckman sample selection model (where only one sample is observed) and Heckman-type corrections for self-selection, which can also work for the case where the two samples are observed. The latter is referred to as control function approach, and amounts to include into your second stage a term controlling for the endogeneity.

Let us have a standard case with an endogeneous dummy variable D, an instrument Z:

Y=β+β1D+ϵ
D=γ+γ1Z+u

Both approaches run a first stage (D on Z). IV uses a standard OLS (even if D is a dummy) Heckman uses a probit. But besides this, the main difference is on the way they use this first stage into the main equation:

  • IV: break the endogeneity by decomposing D into parts uncorrelated with ϵ, given by the prediction of D: Y=β+β1D^+ϵ
  • Heckman: model the endogeneity: keep the endogenous D, but add a function of the predicted values of the first stage. For this case, it is a pretty complicated function: Y=β+β1D+β2[λ(D^)λ(D^)]+ϵ where λ() is the inverse Mills ratio

The advantage of the Heckman procedure is that it provides a direct test for endogeneity: the coefficient β2. On the other side, the Heckman procedure relies on the assumption of joint normality of the errors, while the IV does not make any such assumption.

So you have the standard story that with normal errors, the control function will be more efficient (especially if ones uses the MLE instead of the two-step shown here) than the IV, but that if the assumption does not hold, IV would be better. As researchers have become more suspicious about the assumption of normality, the IV is used more often.


0

From Heckman, Urzua and Vytlacil (2006):

Example of selection bias: Consider the effects of a policy on the outcome of a country (e.g. GDP). If the countries that would have done well in terms of the unobservable even in the absence of the policy are the ones that adopt the policy, then the OLS estimates are biased.

Two main approaches have been adopted to solve this problem: (a) selection models and (b) instrumental variable models.

The selection approach models levels of conditional means. The IV approach models the slopes of the conditional means. IV does not identify the constants estimated in selection models.

The IV approach does not condition on D (the treatment). The selection (control function) estimator identifies the conditional means using control functions.

When using control functions with curvature assumptions, one does not require an exclusion restriction (does not require ZX) in the selection model. By assuming a functional form for the distribution of the error terms, one rules out the possibility that the conditional mean of the outcome equation equals the conditional control function, and thus you can correct for selection without exclusion restrictions. See also Heckman and Navarro (2004).

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.