Коли використовувати фіксовані ефекти проти використання кластерних SE?


19

Припустимо, у вас є один перетин даних, де люди розташовані в межах груп (наприклад, учні в школах), і ви хочете оцінити модель форми, Y_i = a + B*X_iде Xє вектор індивідуальних характеристик рівня та aконстанта.

У цьому випадку припустімо, що незабезпеченість між груповою неоднорідністю зміщує ваші оціночні показники Bта їх СЕ, оскільки це корелює з вашою незалежною змінною, що цікавить.

Один із варіантів - це згрупувати свої ПТ за групами (школами). Іншим є включення групових ЗП. Іншим є використання обох. Що слід враховувати, обираючи між цими варіантами? Особливо незрозуміло, чому можна кластеризувати SE за групою І використовувати групу FE. У моєму конкретному випадку я маю 35 груп та 5000 осіб, які вкладаються в кожну групу. Я стежив за обговоренням у цьому PDF , але не дуже зрозуміло, чому і коли можна використовувати як кластеризовані СЕ, так і фіксовані ефекти.

(Будь ласка, обговоріть плюси та мінуси кластеризованих СЕ порівняно із ЗП, а не пропонуйте мені просто підходити до багаторівневої моделі)

Відповіді:


22

Обидва підходи, використовуючи групові фіксовані ефекти та / або стандартну помилку, скориговану на кластер, враховують різні проблеми, пов’язані з кластерними (або панельними) даними, і я б чітко розглядав їх як окремі підходи. Часто ви хочете використовувати обоє:

Перш за все, стандартний рахунок помилок, скоригований кластером, для кореляції в межах кластера або гетеросцедастичності, який оцінювач фіксованих ефектів не враховує, якщо ви не готові робити додаткові припущення, дивіться слайди лекцій Імбенса та Вулдріджа для гарного обговорення коротких питань довгі панелі та різні питання, пов'язані з цією проблемою . На цю тему також розміщено нове стаття від Кемерона та Міллера: Посібник практикуючих щодо надійних кластерних висновків, який може бути цікавим для вас. Якщо ви не хочете моделювати дисперсію-коваріаційну матрицю, і ви підозрюєте, що наявна кореляція в межах кластера, я раджу використовувати кластерну стійку стандартну помилку, оскільки зміщення у вашому SE може бути серйозним (набагато більш проблематичним, ніж для гетеросцедастичності, див.Angrist & Pischke Розділ III.8 для обговорення цієї теми. Але вам потрібно досить кластеру (Ангріст і Пішке кажуть 40-50 як роль великого пальця). Стандартна помилка, скоригована кластером, враховує стандартну похибку, але оцінку балів залишайте незмінними (звичайна помилка зазвичай зростає)!

Оцінка фіксованих ефектів враховує неспостережувану гетерогенність, інваріантну часом (як ви згадували). Це може бути добре чи погано: З іншого боку, вам потрібно менше припущень для отримання послідовних оцінок. З іншого боку, ви викидаєте багато дисперсії, яка може бути корисною. Деякі люди, як Ендрю Гелман, віддають перевагу ієрархічному моделюванню фіксованим ефектам, але тут думки відрізняються. Оцінка фіксованих ефектів змінить як точкові, так і інтервальні оцінки (також тут стандартна помилка зазвичай буде вище).

Отже, підсумовуючи: надійна стандартна помилка кластеру - це простий спосіб обліку можливих проблем, пов’язаних із кластеризованими даними, якщо ви не хочете займатися моделюванням взаємозв'язку між кластерами та між кластерами (а кластерів достатньо). Оцінка фіксованих ефектів використовуватиме лише певні варіації, тому від вашої моделі залежить, хочете ви робити оцінки на основі меншої зміни чи ні. Але без подальших припущень оцінка фіксованих ефектів не допоможе вирішити проблеми, пов'язані з внутрішньокластерною кореляцією для дисперсійної матриці. Ні одна стандартна помилка кластера не враховуватиме проблеми, пов'язані з використанням оцінки фіксованих ефектів.


2
Хороша відповідь. Ключове питання, що залишається - чому б хотілося БУТИ. Імбенс і Вулдрідж в деякій мірі висвітлюють це.
QuestionAnswer

14

Виправлені ефекти призначені для усунення незабезпеченої неоднорідності МЕЖДО різних груп у ваших даних.

Я не погоджуюсь із наслідком прийнятої відповіді про те, що рішення про використання моделі ІЗ буде залежати від того, хочете ви використовувати "меншу варіацію чи ні". Якщо на вашу залежну змінну впливають непомітні змінні, які систематично змінюються в різних групах на вашій панелі, то коефіцієнт будь-якої змінної, яка співвідноситься з цією варіацією, буде упередженою. Якщо ваші X змінні не були присвоєні випадковим чином (і вони ніколи не будуть із даними спостереження), як правило, доволі просто зробити аргумент для зміщення пропущених змінних. Ви можетевміти контролювати деякі пропущені змінні з хорошим списком змінних керування, але якщо чітка ідентифікація - ваша ціль номер 1, навіть обширний перелік елементів управління може залишити місце критичним читачам сумніватися у ваших результатах. У цих випадках зазвичай корисно використовувати модель з фіксованими ефектами.

Кластеризовані стандартні помилки призначені для обліку ситуацій, коли спостереження в межах кожної групи не є ідентичними (незалежно та однаково розподілені).

Класичний приклад - якщо у вас є багато спостережень для групи фірм протягом часу. Ви можете врахувати фіксовані ефекти на рівні фірми, але все ще можуть бути деякі необяснені зміни залежної змінної, які співвідносяться протягом часу. Загалом, працюючи з даними часових рядів, зазвичай безпечно припускати тимчасову послідовну кореляцію в термінах помилок у ваших групах. Ці ситуації є найбільш очевидними випадками використання для кластеризованих СЕ.

Деякі наочні приклади:

Якщо у вас є експериментальні дані, де ви призначаєте лікування випадковим чином, але робите неодноразові спостереження для кожної людини / групи протягом часу, ви б виправдано опускали фіксовані ефекти, але хотіли б згрупувати ваші SE.

Крім того, якщо у вас є багато спостережень у групі за неекспериментальними даними, але кожне спостереження всередині групи може розглядатися як притягнення до їхньої більшої групи (наприклад, у вас є спостереження багатьох шкіл, але кожна група є випадковим чином намальованим підмножиною студентів з їхньої школи), ви хочете включити фіксовані ефекти, але не потребуватимуть кластеризованих SE.


2

Ці відповіді чудові, але найсвіжішу та найкращу відповідь надають Abadie et al. (2019) "Коли слід відрегулювати стандартні помилки для кластеризації?" Завдяки фіксованим ефектам, головна причина кластеру полягає в тому, що у вас є неоднорідність ефектів лікування по кластерах. Є й інші причини, наприклад, якщо кластери (наприклад, фірми, країни) - це підмножина кластерів серед населення (про які ви робите висновок). Кластеризація - питання дизайну - головне повідомлення статті. Не роби це наосліп.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.