Перемикання знаків при додаванні ще однієї змінної в регресії та значно більших масштабів


9

Основна настройка:

модель регресії: де C - вектор керуючих змінних.y=constant+β1x1+β2x2+β3x3+β4x4+αC+ϵ

Мене цікавить і очікую, що та будуть негативними. Однак у моделі є проблема мультиколінеарності, коефіцієнт кореляції задається через, corr ( , 0,9345, corr ( , 0,1765, corr ( , 0,3019.ββ1β2x1x2)=x1x3)=x2x3)=

Тож та дуже співвідносяться, і вони повинні практично надавати однакову інформацію. У мене три регресії: x1x2

  1. виключити змінну ; 2. виключити змінну ; 3. оригінальна модель з та .x1x2x1x2

Результати:
Для регресії 1 та 2 вона дає очікуваний знак для та відповідно та з аналогічною величиною. І і є значущими на 10% в обох моделях після того, як я виправляю HAC у стандартній помилці. позитивний, але не суттєвий для обох моделей.β2β1β2β1β3

Але для 3 має очікуваний знак, але знак для позитивний з величиною вдвічі більшою за в абсолютному значенні. І і незначні. Більше того, величина для зменшується майже вдвічі порівняно з регресією 1 та 2.β1β2β1β1β2β3

Моє запитання:

Чому в 3 знак стає позитивним і набагато більшим, ніж в абсолютному значенні? Чи є якась статистична причина того, що може перевертати знак і має велику величину? Або це тому, що в моделях 1 і 2 страждає проблема пропущеної змінної, яка завищена умови, що позитивно впливає на y? Але тоді в регресійній моделі 1 і 2 обидва і повинні бути позитивними замість негативних, оскільки загальний ефект і в регресійній моделі 3 є позитивним.β2β1β2β3x2β2β1x1x2

Відповіді:


8

Пригадайте цей приклад:

Зберіть набір даних на основі монет у кишенях людей, y змінна / відповідь - це загальне значення монет, змінна x1 - загальна кількість монет і x2 - кількість монет, що не є чвертями (або будь-яке найбільше значення загальних монет для місцевих).

Неважко помітити, що регресія з x1 або x2 дала би позитивний нахил, але при включенні обох у модель нахил на x2 піде негативним, оскільки збільшення кількості менших монет без збільшення загальної кількості монет означатиме заміну великі монети з меншими і зменшуючи загальну вартість (у).

Те ж саме може статися щоразу, коли у вас є корельовані х змінних, знаки можуть бути легко протилежні між тим, коли термін є сам по собі і за наявності інших.


3

Ви відповіли на власне запитання - є колінеарність.

Трохи пояснень: та є дуже колінеарними. Але коли ви вводите обидва в регресію, регресія намагається контролювати вплив інших змінних. Іншими словами, утримуйте постійною, що зміни в роблять . Але той факт, що вони настільки споріднені, означає, що це питання нерозумно, і можуть статися дивні речі.x1x2x1x2y


Дуже дякую. Але оскільки теорія мультиколінності лише надуває дисперсію, але не впливає на загальну силу прогнозування сильно корельованих змінних, тому я вважав, що в моделі 3 має забезпечити подібний результат, як в моделі 1 або в моделі 2, оскільки попарна кореляція x1 x2 з x3 не є високою (насправді це моя заплутана частина). Але оскільки кореляція може бути справді безладною, і на практиці я не повинен цього очікувати, оскільки моя модель є лише наближенням DGP і співвідношення з іншими змінними. β1x1+β2x2β2x2β1x1
Тинг

Якщо ви хочете розібратися в цьому, я дуже рекомендую книги Девіда Белслі.
Пітер Флом

Чудово, велике спасибі !!! Щойно запитував книги з бібліотеки :)
вівторок

2

Чому в 3 знак β2 стає позитивним і значно більшим за β1 в абсолютній величині? Чи є якась статистична причина того, що β2 може перевертати знак і має велику величину?

Проста відповідь - немає глибокої причини.

Спосіб подумати про це полягає в тому, що коли мультиколінеарний підхід ідеально підходить, конкретні значення, які ви в кінцевому підсумку отримуєте від підгонки, стають все більш і більш залежними від менших і менших деталей даних. Якби ви вибирали однаковий обсяг даних з одного і того ж базового розподілу і потім підходили, ви могли б отримати зовсім інші пристосовані значення.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.