Приємною особливістю відмінностей у відмінностях (DiD) є те, що для цього вам не потрібні дані панелі. Зважаючи на те, що лікування відбувається на певному рівні агрегації (у ваших випадках містах), вам потрібно лише відібрати вибіркові випадки з міст до та після лікування. Це дозволяє оцінити
і отримати причинний ефект від лікування як очікувану різницю після результатів перед обробляється за вирахуванням очікуваної різниці після контролю для контролю.
yist=Ag+Bt+βDst+cXist+ϵist
Є випадок, коли люди використовують індивідуальні фіксовані ефекти замість індикатора лікування, і це коли ми не маємо чітко визначеного рівня агрегації, на якому відбувається лікування. У такому випадку ви оціните
де є показником періоду після лікування для осіб, які отримали лікування (наприклад, програма ринку праці, яка відбувається повсюдно). Більш детальну інформацію про це дивіться у цих конспектах лекцій Стіва Пішке.
yit=αi+Bt+βDit+cXit+ϵit
Dit
У ваших налаштуваннях додавання окремих фіксованих ефектів не повинно нічого змінити стосовно бальних оцінок. Індикатор лікування буде просто поглинений індивідуальними фіксованими ефектами. Однак ці фіксовані ефекти можуть затримати частину залишкової дисперсії і, отже, потенційно зменшити стандартну помилку коефіцієнта DiD.Ag
Ось приклад коду, який показує, що це так. Я використовую Stata, але ви можете скопіювати це у вибраному статистичному пакеті. "Особи" тут насправді є країнами, але вони все ще групуються за деяким показником лікування.
* load the data set (requires an internet connection)
use "http://dss.princeton.edu/training/Panel101.dta"
* generate the time and treatment group indicators and their interaction
gen time = (year>=1994) & !missing(year)
gen treated = (country>4) & !missing(country)
gen did = time*treated
* do the standard DiD regression
reg y_bin time treated did
------------------------------------------------------------------------------
y_bin | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
time | .375 .1212795 3.09 0.003 .1328576 .6171424
treated | .4166667 .1434998 2.90 0.005 .13016 .7031734
did | -.4027778 .1852575 -2.17 0.033 -.7726563 -.0328992
_cons | .5 .0939427 5.32 0.000 .3124373 .6875627
------------------------------------------------------------------------------
* now repeat the same regression but also including country fixed effects
areg y_bin did time treated, a(country)
------------------------------------------------------------------------------
y_bin | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
time | .375 .120084 3.12 0.003 .1348773 .6151227
treated | 0 (omitted)
did | -.4027778 .1834313 -2.20 0.032 -.7695713 -.0359843
_cons | .6785714 .070314 9.65 0.000 .53797 .8191729
-------------+----------------------------------------------------------------
Отже, ви бачите, що коефіцієнт DiD залишається колишнім, коли включаються окремі фіксовані ефекти ( areg
є однією з доступних команд оцінки фіксованих ефектів у Stata). Стандартні помилки дещо жорсткіші, і наш оригінальний показник лікування був поглинений індивідуальними фіксованими ефектами, і тому впав у регресію.
У відповідь на коментар
я згадав приклад Пішке, щоб показати, коли люди використовують індивідуальні фіксовані ефекти, а не індикатор групи лікування. Ваша установка має чітко окреслену групову структуру, тому спосіб написання вашої моделі - це чудово. Стандартні помилки повинні бути кластеризовані на рівні міста, тобто рівень агрегації, на якому відбувається лікування (я цього не робив у прикладі коду, але в налаштуваннях DiD стандартні помилки потрібно виправити, як показано в роботі Bertrand et al. ).
Щодо переїздів, то тут вони не мають великої ролі. Індикатор лікування дорівнює 1 для людей , які живуть в обробленому місті в доочистки періоду . Для обчислення коефіцієнта DiD нам насправді просто потрібно обчислити чотири умовні очікування, а саме
s t c =Dstst
c=[E(yist|s=1,t=1)−E(yist|s=1,t=0)]−[E(yist|s=0,t=1)−E(yist|s=0,t=0)]
Отже, якщо у вас є 4 періоди після лікування для особи, яка проживає в обробленому місті протягом перших двох, а потім переїжджає до контрольного міста протягом двох інших періодів, перші два з цих спостережень будуть використані для обчислення і останні два в . Щоб було зрозуміло, чому ідентифікація походить від групових відмінностей у часі, а не від рушіїв, ви можете уявити це простим графіком. Припустимо, зміна результату є справді лише завдяки лікуванню та тому, що воно має сучасний ефект. Якщо у нас є людина, яка проживає в обробленому місті після початку лікування, але потім переїжджає до контрольного міста, їх результат повинен повернутися до того, що було до того, як до них зверталися. Це показано на стилізованому графіку нижче.E ( y i s t | s = 0 , t = 1 )E(yist|s=1,t=1)E(yist|s=0,t=1)
Можливо, ви все ще хочете подумати про вантажників з інших причин. Наприклад, якщо лікування має тривалий ефект (тобто воно все-таки впливає на результат, навіть якщо індивід перейшов)