Манекени із змінними пастками


10

Я використовую велику регресію OLS, де всі незалежні змінні (приблизно 400) - фіктивні змінні. Якщо всі включені, існує ідеальна мультиколінеарність (фільтр фіктивних змінних), тому я повинен опустити одну із змінних, перш ніж запустити регресію.

Перше моє запитання: яку змінну слід опустити? Я читав, що краще опустити змінну, яка присутня у багатьох спостереженнях, а не ту, яка присутня лише в декількох (наприклад, якщо майже всі спостереження є "чоловічими" або "жіночими" і лише деякі - "невідомими" ", пропустіть або" чоловічого ", або" жіночого "). Це виправдано?

Після запуску регресії зі змінною опущеною я можу оцінити значення коефіцієнта опущеної змінної, тому що я знаю, що загальне середнє значення всіх моїх незалежних змінних має бути 0. Тому я використовую цей факт для зміщення значень коефіцієнта для всіх включені змінні та отримують оцінку для опущеної змінної. Наступне моє запитання - чи існує якась подібна методика, яка може бути використана для оцінки стандартної помилки для значення коефіцієнта опущеної змінної. Оскільки я повинен запустити регресію, опустивши іншу змінну (і включаючи змінну, яку я опустив у першій регресії), щоб отримати стандартну оцінку помилок для коефіцієнта спочатку пропущеної змінної.

Нарешті, я помічаю, що отримані нами коефіцієнти (після переорієнтації навколо нуля) дещо відрізняються залежно від того, яка змінна опущена. Теоретично, чи було б краще запустити кілька регресій, кожен з яких опустив іншу змінну, а потім оцінити коефіцієнт оцінки за всіма регресіями?


Чи можете ви уточнити, що ви маєте на увазі під "загальним середнім значенням всіх моїх незалежних змінних має бути 0" і як ви це знаєте?
onestop

В основному я хочу оцінити всі змінні відносно середнього (середнє значення всіх змінних). Коефіцієнти регресії відносно опущеної змінної. Отже, коли я віднімаю середнє значення всіх коефіцієнтів (включаючи коефіцієнт опущеної змінної 0) від кожного значення коефіцієнта, скориговані значення становитимуть середнє значення 0, і кожне значення коефіцієнта може розглядатися як відстань від середнього.
Джеймс Девісон

Відповіді:


8

Ви повинні отримувати "однакові" оцінки незалежно від того, яку змінну ви опускаєте; то коефіцієнти можуть бути різними, але оцінки конкретних величин або очікування повинні бути однаковими у всіх моделях.

У простому випадку нехай хi=1для чоловіків і 0 для жінок. Потім у нас є модель:

Е[уiхi]=хiЕ[уiхi=1]+(1-хi)Е[уiхi=0]=Е[уiхi=0]+[Е[уiхi=1]-Е[уiхi=0]]хi=β0+β1хi.
А тепер нехай zi=1для жінки. Тоді
Е[уizi]=ziЕ[уizi=1]+(1-zi)Е[уizi=0]=Е[уizi=0]+[Е[уizi=1]-Е[уizi=0]]zi=γ0+γ1zi.
Очікуване значення у для жінок є β0 а також γ0+γ1. Для чоловіків це такβ0+β1 і γ0.

Ці результати показують, як коефіцієнти двох моделей пов'язані. Наприклад,β1=-γ1. Подібна вправа з використанням ваших даних повинна показувати, що отримані "різні" коефіцієнти - це лише суми та різниці один одного.


4

Джеймс, насамперед чому регресійний аналіз, а не АНОВА (є багато фахівців з подібного роду аналізів, які могли б вам допомогти)? В плюсах для ANOVA, що все , що ви на самому справі зацікавлені в розходженні в засобах різних груп , описаних комбінаціями фіктивних змінних (унікальні категорії або профілі). Що ж, якщо ви вивчаєте вплив кожної з категоричних змінних, які ви включаєте, ви також можете запустити регресію.

Я думаю, тип даних, які ви маєте тут, описаний у сенсі спільного аналізу : багато атрибутів об’єкта (стать, вік, освіта тощо), кожен має кілька категорій, таким чином ви опускаєте весь найбільший профіль, а не просто одна фіктивна змінна. Поширена практика - кодувати категорії в атрибуті наступним чином (це посилання може бути корисним, ви, мабуть, не робите тут спільного аналізу, але кодування схоже): припустимо, у вас єн категорії (три, як ви запропонували, чоловік, жінка, невідомо), тоді перші дві кодуються, як зазвичай, ви включаєте дві манекени (чоловіки, жінки), даючи (1,0) якщо чоловік, (0,1) якщо жінка, і (-1,-1)якщо невідомо. Таким чином результати дійсно будуть розміщені навколо терміну перехоплення. Однак ви можете кодувати іншим способом, але втратите згадану перевагу інтерпретації. Підводячи підсумок, ви випадаєте по одній категорії з кожної категорії та кодуєте свої спостереження описаним способом. Ви також включаєте термін перехоплення.

Ну а пропустити найбільші категорії профілю мені здається добре, хоча це не так важливо, принаймні, це не пусто, я думаю. Оскільки ви конкретно кодуєте змінні, спільна статистична значущість включених змінних манекенів (обидві жінки-самці можуть бути перевірені F-тестом) передбачає значення опущеної.

Може статися, що результати дещо відрізняються, але може бути, неправильне кодування впливає на це?


Вибачте, якщо моє написання не зрозуміло, у Литві опівночі.
Дмитро Челов

Чому ваш невідомий (-1, -1) замість (0,0)?
сіамія

1

Не знаючи точного характеру вашого аналізу, чи розглядали ви кодування ефектів? Таким чином кожна змінна буде представляти ефект цієї ознаки / атрибута проти загальної величини, а не якоїсь конкретної опущеної категорії. Я вважаю, що вам все одно не вистачить коефіцієнта для однієї з категорій / атрибутів - тієї, якій ви призначите -1. І все-таки з цією безліччю муляжів я б подумав, що велика середина зробить більш значимою групу порівняння, ніж будь-яка конкретна опущена категорія.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.