Я головним чином зупинюся на ваших перших трьох питаннях. Короткі відповіді: (1) вам потрібно порівнювати вплив IV на DV за кожен часовий період, але (2) лише порівняння величин може призвести до помилкових висновків, і (3) існує багато способів зробити це, але немає єдиної думки щодо того, хто з них правильний.
Нижче я описую, чому ви не можете просто порівняти величини коефіцієнтів і вказую на деякі рішення, про які думали досі.
На думку Аллісон (1999), на відміну від OLS, на коефіцієнти логістичної регресії впливає незарезервована гетерогенність, навіть коли така гетерогенність не пов'язана зі змінною, що цікавить.
Коли ви підходите до логістичної регресії, наприклад:
(1)
ln( 11 - сi) =β0+ β1х1 i
Насправді ви підходите до рівняння, яке передбачає значення латентної змінної що представляє основу схильності кожного спостереження приймати значення у бінарній залежній змінній, що відбувається, якщо вище певного порогу. Рівняння для цього є (Williams, 2009):у∗1у∗
(2)
у∗= α0+ α1х1 i+ σε
Термін вважається незалежним від інших термінів і слідкувати за логістичним розподілом - або нормальним розподілом у разі пробіту та логістично-логістичного розподілу у разі додаткового журналу журналу та каучучого розподілу у випадку каухіт.ε
За словами Вільямса (2009), коефіцієнти в рівнянні 2 пов'язані з коефіцієнтами в рівнянні 1 до:αβ
(3)
βj= αjσJ = 1 , . . . , J.
У рівняннях 2 і 3 є коефіцієнтом масштабування непоміченої зміни, і ми можемо бачити, що розмір оцінених коефіцієнтів залежить від , якого не спостерігається. Виходячи з цього, Еллісон (1999), Вільямс (2009) та Муд (2009), серед інших, стверджують, що ви не можете наївно порівнювати коефіцієнти між логістичними моделями, оціненими для різних груп, країн чи періодів.β σσβσ
Це відбувається тому, що порівняння можуть дати неправильні висновки, якщо непомічені зміни відрізняються між групами, країнами або періодами. Обидві порівняння, що використовують різні моделі та використовують умови взаємодії в межах однієї моделі, страждають від цієї проблеми. Окрім logit, це стосується також своїх кузенів probit, clog-log, cachit і, в свою чергу, до дискретних моделей небезпеки за часом, оцінених за допомогою цих функцій зв'язку. На це також впливають упорядковані моделі logit.
Вільямс (2009) стверджує, що рішення полягає в моделюванні непоміченої варіації за допомогою гетерогенної моделі вибору (він же, модель розміщення місць розташування), і забезпечує додавання до статистики, що вимагається oglm
для цього (Williams 2010). У R моделі гетерогенного вибору можуть відповідати hetglm()
функції glmx
пакету, яка доступна через CRAN. Обидві програми дуже прості у використанні. Нарешті, Williams (2009) згадує PLUM
звичайну SPSS для встановлення цих моделей, але я ніколи не використовував її і не можу прокоментувати, наскільки це просто у використанні.
Однак є щонайменше один робочий документ , який показує, що порівняння, що використовують різнорідні моделі вибору, можуть бути ще більш упередженими, якщо рівняння дисперсії неправильно визначено або є помилка вимірювання.
Mood (2010) перераховує інші рішення, які не передбачають моделювання дисперсії, але використовують порівняння передбачуваних змін ймовірності.
Мабуть, це питання, яке не врегульоване, і я часто бачу документи на конференціях моєї галузі (соціології), де виходять різні рішення для цього. Я б порадив вам поглянути на те, що роблять люди у вашій галузі, а потім вирішити, як з цим боротися.
Список літератури
- Еллісон, PD (1999). Порівняння коефіцієнтів Logit та Probit у різних групах. Соціологічні методи та дослідження, 28 (2), 186–208.
- Настрій, С. (2010). Логістична регресія: чому ми не можемо робити те, що ми думаємо, що можемо зробити, і що ми можемо з цим зробити. Європейський соціологічний огляд, 26 (1), 67–82.
- Вільямс, Р. (2009). Використання моделей гетерогенного вибору для порівняння коефіцієнтів Logit та Probit у всіх групах. Соціологічні методи та дослідження, 37 (4), 531–559.
- Вільямс, Р. (2010). Встановлення різнорідних моделей вибору з oglm. The Stata Journal, 10 (4), 540–567.