Що таке різниця у різницях?

43

Різниця у відмінностях давно популярна як неекспериментальний інструмент, особливо в економіці. Чи може хтось, будь ласка, надати чітку та нетехнічну відповідь на наступні питання про різницю у різницях.

Що таке оцінка різниці у різниці?
Чому оцінювач різниці в різниці використовує будь-яке використання?
Чи можемо ми довіряти оцінкам різниці у різниці?

regression econometrics difference-in-difference

— Грем Кукссон
джерело

Хтось знає, як оцінити різницю в різницькій регресії в ґреті? Чи потрібно працювати з OLS або даними на панелі?

3

@Pyca Це звучить як неналежне використання коментарів там. Вам слід написати нове запитання з посиланням на це.

— chl

66

Що таке різниця у
оцінці відмінностей Різниця у відмінностях (DiD) - це інструмент для оцінки ефектів лікування, порівнюючи відмінності до та після лікування в результатах лікування та контрольній групі. Загалом, ми зацікавлені в оцінці ефекту лікування (наприклад, статусу союзу, ліків тощо) на результат (наприклад, зарплата, здоров'я тощо), як у де це індивідуальні фіксовані ефекти (характеристики осіб, які не змінюються з часом), - часові фіксовані ефекти, - коваріати, що змінюються часом, як вік людей, і $D_i$ $Y_i$

Y_{i t} = α_{i} + λ_{t} + ρ D_{i t} + X_{i t}^{'} β + ϵ_{i t}

$Y_{it} = \alpha_i + \lambda_t + \rho D_{it} + X'_{it}\beta + \epsilon_{it}$

α_{i}

$\alpha_i$

λ_{t}

$\lambda_t$

X_{i t}

$X_{it}$

ϵ_{i t}

$\epsilon_{it}$ - термін помилки. Індивіди і час індексуються відповідно і відповідно. Якщо існує кореляція між фіксованими ефектами та то оцінка цієї регресії через OLS буде упереджена, враховуючи, що фіксовані ефекти не контролюються. Це типовий ухил змінної зміни .

i

$i$

t

$t$

D_{i t}

$D_{it}$

Щоб побачити ефект від лікування, ми хотіли б знати різницю між людиною у світі, в якому вона отримала лікування, та тим, у якому вона не проводить. Звичайно, лише одна з них спостерігається на практиці. Тому ми шукаємо людей, які мають однакові тенденції до лікування. Припустимо , що ми маємо два періоду і дві групи . Тоді, при припущенні, що тенденції у групах лікування та контролю тривали б так само, як і раніше, за відсутності лікування, ми можемо оцінити ефект лікування як $t = 1, 2$ $s = A,B$

ρ = (E [Y_{i s t} | s = A, t = 2] - E [Y_{i s t} | s = A, t = 1]) - (E [Y_{i s t} | s = B, t = 2] - E [Y_{i s t} | s = B, t = 1])

$\rho = (E[Y_{ist}|s=A,t=2] - E[Y_{ist}|s=A,t=1]) - (E[Y_{ist}|s=B,t=2] - E[Y_{ist}|s=B,t=1])$

Графічно це виглядатиме приблизно так: введіть тут опис зображення

Ви можете просто обчислити ці засоби вручну, тобто отримати середній результат групи в обох періодах та прийняти їх різницю. Потім отримують середній результат групи в обох періодах і приймають їх різницю. Потім прийміть різницю в різницях, і ось ефект лікування. Однак зручніше це робити в регресійних рамках, оскільки це дозволяє $A$ $B$

для контролю за коваріатами
отримати стандартні помилки для ефекту лікування, щоб перевірити, чи є він суттєвим

Для цього можна дотримуватися будь-якої з двох рівнозначних стратегій. Створіть манекен контрольної групи який дорівнює 1, якщо людина перебуває в групі і 0 в іншому випадку, створіть манекен часу який дорівнює 1, якщо і 0 в іншому випадку, а потім регрес $\text{treat}_i$ $A$ $\text{time}_t$ $t=2$

Y_{i t} = β_{1} + β_{2} ({treat}_{i}) + β_{3} ({time}_{t}) + ρ ({treat}_{i} \cdot {time}_{t}) + ϵ_{i t}

$Y_{it} = \beta_1 + \beta_2 (\text{treat}_i) + \beta_3 (\text{time}_t) + \rho (\text{treat}_i \cdot \text{time}_t) + \epsilon_{it}$

Або ви просто генеруєте манекен який дорівнює одиниці, якщо людина перебуває в групі лікування І часовий період - це період після лікування, а в іншому випадку дорівнює нулю. Тоді ви б регресували $T_{it}$

Y_{i t} = β_{1} γ_{s} + β_{2} λ_{t} + ρ T_{i t} + ϵ_{i t}

$Y_{it} = \beta_1 \gamma_s + \beta_2 \lambda_t + \rho T_{it} + \epsilon_{it}$

де знову є манекеном для контрольної групи, а - манекенами часу. Дві регресії дають однакові результати протягом двох періодів та двох груп. Друге рівняння є більш загальним, хоча воно легко поширюється на кілька груп та періоди часу. У будь-якому випадку, саме так ви можете оцінити параметр різниці в відмінностях таким чином, що ви можете включити контрольні змінні (я вийшов із наведених рівнянь, щоб не захаращувати їх, але ви можете просто включити їх) та отримати стандартні помилки для висновку. $\gamma_s$ $\lambda_t$

Чому корисний оцінювач різниці різниць?
Як було сказано раніше, DiD - це метод оцінки ефектів лікування за допомогою неекспериментальних даних. Це найкорисніша особливість. DiD - це також версія оцінки фіксованих ефектів. Тоді як модель фіксованих ефектів передбачає , DiD робить подібне припущення, але на рівні групи, . Тож очікуване значення результату тут - це сума групи та часовий ефект. То яка різниця? Для Ви Робили не обов'язково панельні даних до тих пір , як ваші неодноразові перетини, взяті з того ж агрегатного блоку . Це робить DiD застосованим до більш широкого масиву даних, ніж стандартні моделі з фіксованими ефектами, які потребують панельних даних. $E(Y_{0it}|i,t) = \alpha_i + \lambda_t$ $E(Y_{0it}|s,t) = \gamma_s + \lambda_t$ $s$

Чи можна довіряти різниці у відмінностях?
Найважливішим припущенням в DiD є припущення про паралельні тенденції (див. Малюнок вище). Ніколи не довіряйте дослідженню, яке графічно не показує цих тенденцій! Документи у 90-х роках, можливо, відійшли від цього, але сьогодні наше розуміння DiD набагато краще. Якщо немає переконливого графіка, який би показував паралельні тенденції в результатах попереднього лікування для груп лікування та контролю, будьте обережні. Якщо припущення про паралельні тенденції дотримується, і ми можемо правдиво виключити будь-які інші зміни варіанту часу, які можуть заплутати лікування, то DiD є надійним методом.

Інше слово обережності слід застосовувати, коли мова йде про лікування стандартних помилок. Маючи багаторічні дані, вам потрібно відкоригувати стандартні помилки для автокореляції. У минулому цим нехтували, але з часу Бертран та ін. (2004) "Скільки слід довіряти оцінкам відмінностей у відмінності?" ми знаємо, що це питання. У роботі вони містять декілька засобів для боротьби з автокореляцією. Найпростіше - це кластеризація індивідуального ідентифікатора панелі, що дозволяє довільно співвідносити залишки між окремими часовими рядами. Це виправляє як автокореляцію, так і гетеросцедастичність.

Для подальших довідок див. Ці конспекти лекцій Вальдінгера та Пішке .

— Енді
джерело

6

У Вікіпедії з цього приводу є гідний запис , але чому б просто не використовувати лінійну регресію, що дозволяє взаємодіяти між вашими незалежними змінними? Мені це здається більш тлумачним. Тоді ви можете прочитати аналіз простих схилів (у книзі Коена та ін, безкоштовно в Google Books), якщо ваші змінні величини є кількісними.

— Стівен Тернер
джерело

0

Це методика, широко застосовувана в економетрії для дослідження впливу будь-якої екзогенної події в часовому ряді. Ви вибираєте дві окремі групи даних, що стосуються до та після вивченої події. Хорошим посиланням, щоб дізнатися більше, є книга « Вступ до економетрики » Вулдріджа.

— Карлос Дутра
джерело

2

Як стисла нетехнічна відповідь, це доповнення до відповіді Енді, але я не думаю, що вона охоплює "Чи можемо ми насправді довіряти оцінкам різниці в різниці?"

— Срібна рибка

0

Обережно:

Два додаткових пункту варто відзначити. По-перше, у 80 оригінальних паперів 92 DD виникає потенційна проблема з групованими термінами помилок, оскільки одиниця спостереження є більш детальною, ніж рівень варіації (точка, яку обговорювали Дональд та Ланг [2001]). Тільки 36 з цих робіт вирішують цю проблему, або шляхом кластеризації стандартних помилок, або шляхом агрегування даних. По-друге, кілька методів використовуються (більш-менш неофіційно) для вирішення можливої ендогенності змінної інтервенції. Наприклад, три статті містять залежну залежну змінну в рівнянні (1), сім включає часовий тренд, характерний для оброблених станів, п’ятнадцять побудують деякі графіки для вивчення динаміки ефекту лікування, три вивчать, чи є “ефект” раніше закон, два випробування, чи є ефект стійким, і одинадцять формально намагаються зробити потрійні відмінності (DDD) шляхом пошуку іншої контрольної групи. У Bertrand, Duflo та Mullainathan [2002] ми показуємо, що більшість цих методів не полегшує проблеми серійної кореляції.

(Бертран, Дюфло та Муллайнатан 2004, 253)

— Нове тут
джерело