Я використовую велику регресію OLS, де всі незалежні змінні (приблизно 400) - фіктивні змінні. Якщо всі включені, існує ідеальна мультиколінеарність (фільтр фіктивних змінних), тому я повинен опустити одну із змінних, перш ніж запустити регресію.
Перше моє запитання: яку змінну слід опустити? Я читав, що краще опустити змінну, яка присутня у багатьох спостереженнях, а не ту, яка присутня лише в декількох (наприклад, якщо майже всі спостереження є "чоловічими" або "жіночими" і лише деякі - "невідомими" ", пропустіть або" чоловічого ", або" жіночого "). Це виправдано?
Після запуску регресії зі змінною опущеною я можу оцінити значення коефіцієнта опущеної змінної, тому що я знаю, що загальне середнє значення всіх моїх незалежних змінних має бути 0. Тому я використовую цей факт для зміщення значень коефіцієнта для всіх включені змінні та отримують оцінку для опущеної змінної. Наступне моє запитання - чи існує якась подібна методика, яка може бути використана для оцінки стандартної помилки для значення коефіцієнта опущеної змінної. Оскільки я повинен запустити регресію, опустивши іншу змінну (і включаючи змінну, яку я опустив у першій регресії), щоб отримати стандартну оцінку помилок для коефіцієнта спочатку пропущеної змінної.
Нарешті, я помічаю, що отримані нами коефіцієнти (після переорієнтації навколо нуля) дещо відрізняються залежно від того, яка змінна опущена. Теоретично, чи було б краще запустити кілька регресій, кожен з яких опустив іншу змінну, а потім оцінити коефіцієнт оцінки за всіма регресіями?