У мене є набір даних із 8000 кластерами та 4 мільйонами спостережень. На жаль, моє статистичне програмне забезпечення, Stata, працює досить повільно, коли використовує свою панельну функцію даних для логістичної регресії: xtlogit
навіть з 10% підпробою.
Однак при використанні непанельної logit
функції результати з’являються набагато швидше. Тому я можу отримати користь від використання logit
модифікованих даних, які враховують фіксовані ефекти.
Я вважаю, що ця процедура придумана "процедурою фіксованих ефектів Мундлака" (Mundlak, Y. 1978. Об'єднання даних часових рядів та перерізів. Econometrica, 46 (1), 69-85.)
Я знайшов інтуїтивне пояснення цієї процедури в роботі Antonakis, J., Bendahan, S., Jacquart, P., & Lalive, R. (2010). Про висунення причинних претензій: огляд та рекомендації. Лідерство щоквартально, 21 (6). 1086-1120. Цитую:
Один із способів подолати проблему пропущених ефек- тових ефектів та все ж включити змінні рівня 2 - це включити кластерні засоби всіх коваріатів рівня 1 до оціночної моделі (Mundlak, 1978). Засоби кластера можуть бути включені як регресори або відняті (тобто середнє значення кластера) від коваріату рівня 1. Засоби кластера є інваріантними в межах кластера (і змінюються між кластерами) і дозволяють послідовно оцінювати параметри рівня 1 так само, як ніби були включені поправлені ефекти (див. Rabe-Hesketh & Skrondal, 2008).
Тому центрове кластерне середнє здається ідеальним та практичним для вирішення моєї обчислювальної задачі. Однак ці документи, здається, спрямовані на лінійну регресію (OLS).
Чи застосований цей метод центрування в середньому кластері для "реплікації" бінарної логістичної регресії з фіксованими ефектами?
Більш технічним запитанням, яке має призвести до тієї самої відповіді, було б: чи xtlogit depvar indepvars, fe
з набором даних, рівним logit depvar indepvars
набору даних B, коли набір даних B є середньосередньою за кластерною версією набору даних A?
Додаткову складність, яку я виявив у цьому середньому кластерному центрі, - як впоратися з манекенами. Оскільки манекени або 0, або 1, чи вони однакові за регресією випадкових та фіксованих ефектів? Чи не слід їх "зосереджувати"?