Який ефект має співвіднесення предикторів у моделі множинної регресії?


45

У моєму класі лінійних моделей я дізнався, що якщо два предиктори співвідносяться і обидва будуть включені в модель, один буде незначним. Наприклад, припустимо, що розмір будинку та кількість спалень співвідносяться. При прогнозуванні вартості будинку з використанням цих двох прогнозів один з них може бути відхилений, оскільки вони обидва надають багато однакової інформації. Інтуїтивно це має сенс, але у мене є ще кілька технічних питань:

  1. Як цей ефект проявляється в p-значеннях коефіцієнтів регресії, якщо в модель включено лише один або включають обидва предиктори?
  2. Як впливає на дисперсію коефіцієнтів регресії, включивши в модель обидва предиктори або просто маючи такий?
  3. Як я можу знати, який прогноктор обратиме модель для менш значущої?
  4. Як включення лише одного або включаючи обох прогнозів змінює значення / відхилення моєї прогнозованої вартості?

6
Відповіді на деякі ваші запитання з'явилися в інших потоках , наприклад, на сайті stats.stackexchange.com/a/14528 , де описується ситуація, коли кожен із набору лише слабко співвіднесених передбачувачів виявляється незначним, навіть якщо вони колективно належать в моделі. Це гарний набір питань, але призводить до великої кількості міркувань та прийомів; про них написано цілі книги. Див., Наприклад, стратегії регресійного моделювання Франка Харрелла .
whuber

1
Використовуючи розмір будинку та спальні, ви можете бачити, що незначне значення не гарантується, якщо співвідношення відрізняється від 1 або -1. Дійсно існують двокімнатні та трикімнатні будинки однакового розміру, і їх вартість може бути (істотно) різною, що робить обох прогнозів значними. Однак розмір у квадратних метрах і розмір квадратних футів мають кореляцію = 1, і один з них завжди можна скинути.
Пере

Відповіді:


38

Тема, яку ви запитуєте, - це мультиколінеарність . Можливо, ви хочете прочитати деякі теми в CV, що класифікуються під тегом . @ Whuber в відповідь пов'язаний вище , зокрема , також варто вашого часу.


Твердження, що "якщо два предиктори співвідносяться і обидва включені в модель, один буде незначним", не є правильним. Якщо існує реальна дія змінної, ймовірність того, що змінна буде значною, є функцією кількох речей, таких як величина ефекту, величина дисперсії помилки, дисперсія самої змінної, кількість даних у вас є і кількість інших змінних у моделі. Чи співвідносяться змінні також важливо, але це не перекриває ці факти. Розглянемо наступну просту демонстрацію в R:

library(MASS)    # allows you to generate correlated data
set.seed(4314)   # makes this example exactly replicable

# generate sets of 2 correlated variables w/ means=0 & SDs=1
X0 = mvrnorm(n=20,   mu=c(0,0), Sigma=rbind(c(1.00, 0.70),    # r=.70
                                            c(0.70, 1.00)) )
X1 = mvrnorm(n=100,  mu=c(0,0), Sigma=rbind(c(1.00, 0.87),    # r=.87
                                            c(0.87, 1.00)) )
X2 = mvrnorm(n=1000, mu=c(0,0), Sigma=rbind(c(1.00, 0.95),    # r=.95
                                            c(0.95, 1.00)) )
y0 = 5 + 0.6*X0[,1] + 0.4*X0[,2] + rnorm(20)    # y is a function of both
y1 = 5 + 0.6*X1[,1] + 0.4*X1[,2] + rnorm(100)   #  but is more strongly
y2 = 5 + 0.6*X2[,1] + 0.4*X2[,2] + rnorm(1000)  #  related to the 1st

# results of fitted models (skipping a lot of output, including the intercepts)
summary(lm(y0~X0[,1]+X0[,2]))
#             Estimate Std. Error t value Pr(>|t|)    
# X0[, 1]       0.6614     0.3612   1.831   0.0847 .     # neither variable
# X0[, 2]       0.4215     0.3217   1.310   0.2075       #  is significant
summary(lm(y1~X1[,1]+X1[,2]))
#             Estimate Std. Error t value Pr(>|t|)    
# X1[, 1]      0.57987    0.21074   2.752  0.00708 **    # only 1 variable
# X1[, 2]      0.25081    0.19806   1.266  0.20841       #  is significant
summary(lm(y2~X2[,1]+X2[,2]))
#             Estimate Std. Error t value Pr(>|t|)    
# X2[, 1]      0.60783    0.09841   6.177 9.52e-10 ***   # both variables
# X2[, 2]      0.39632    0.09781   4.052 5.47e-05 ***   #  are significant

Кореляція між двома змінними є найнижчою у першому прикладі та найвищою у третьому, проте жодна змінна не є істотною у першому прикладі, і обидві є в останньому прикладі. Величина ефектів однакова у всіх трьох випадках, а відхилення змінних та помилок повинні бути однаковими (вони стохастичні, але виведені з популяцій з однаковою дисперсією). Шаблон, який ми бачимо тут, зумовлений насамперед моїм маніпулюванням s для кожного випадку. N


Ключова концепція, яку потрібно зрозуміти для вирішення ваших питань, - коефіцієнт дисперсії дисперсії (VIF). VIF - наскільки варіація коефіцієнта регресії більша, ніж це було б інакше, якби ця зміна була повністю некорельованою з усіма іншими змінними в моделі. Зауважте, що VIF є мультиплікативним фактором, якщо змінна, про яку йдеться, некорельована, VIF = 1. Просте розуміння VIF полягає в наступному: ви можете підходити до моделі передбачення змінної (скажімо, ) з усіх інших змінних у вашій моделі (скажімо, ) і отримувати кратне . VIF для буде . Скажімо, VIF для булоX 2 R 2 X 1 1 / ( 1 - R 2 ) X 1 10 X 1 10 × X 1X1X2R2X11/(1R2)X110(Часто розглядається як поріг для надмірної мультіколлінеарності), то дисперсія вибіркового розподілу коефіцієнта регресії для буде більше , ніж це було б , якщо був повністю некорреліровани із усіма іншими змінними в моделі. X110×X1

Думаючи про те, що буде, якби ви включили обидві корельовані змінні порівняно лише з однією, є подібною, але трохи складнішою, ніж підхід, обговорений вище. Це тому, що, не враховуючи змінних засобів, модель використовує менший ступінь свободи, що змінює залишкову дисперсію і все, що обчислюється з цього (включаючи дисперсію коефіцієнтів регресії). Крім того, якщо невключена змінна дійсно пов'язана з відповіддю, дисперсія у відповіді завдяки цій змінній буде включена до залишкової дисперсії, зробивши її більшою, ніж вона була б інакше. Таким чином, кілька речей змінюються одночасно (змінна співвідноситься чи ні з іншою змінною, і залишкова дисперсія), і точний ефект відпадання / включення іншої змінної буде залежати від того, як вони торгуються.


Ось озброєний розумінням ВІФ, ось відповіді на ваші запитання:

  1. Оскільки дисперсія розподілу вибірки коефіцієнта регресії була б більшою (на коефіцієнт VIF), якби вона була співвіднесена з іншими змінними в моделі, p-значення були б вищими (тобто, менш значущими), ніж в іншому випадку .
  2. Відхилення коефіцієнтів регресії були б більшими, як уже обговорювалося.
  3. Взагалі, це важко знати без вирішення для моделі. Як правило, якщо лише одне з двох є значущим, саме той, що мав більш сильну двоваріантну кореляцію з . Y
  4. Як змінилися б прогнозовані значення та їх відмінність, досить складно. Це залежить від того, наскільки сильно співвідносяться змінні та від того, як вони, схоже, пов'язані зі змінною вашої відповіді у ваших даних. Щодо цього питання, можливо, вам допоможе прочитати мою відповідь тут: Чи є різниця між "контролем за" та "ігноруванням" інших змінних при множинній регресії?

5

Це більше коментарів, але я хотів включити графік і деякий код.

Я думаю, що твердження "якщо два предиктори співвіднесені і обидва включені в модель, один буде несуттєвим" є помилковим, якщо ви маєте на увазі "лише один". Бінарне статистичне значення не може використовуватися для вибору змінної.

Ось мій контрприклад з використанням регресії процентного вмісту жиру на окружності стегон, товщини складок шкіри * та середньої окружності руки:

. webuse bodyfat, clear
(Body Fat)

. reg bodyfat thigh triceps midarm

      Source |       SS       df       MS              Number of obs =      20
-------------+------------------------------           F(  3,    16) =   21.52
       Model |  396.984607     3  132.328202           Prob > F      =  0.0000
    Residual |  98.4049068    16  6.15030667           R-squared     =  0.8014
-------------+------------------------------           Adj R-squared =  0.7641
       Total |  495.389513    19  26.0731323           Root MSE      =    2.48

------------------------------------------------------------------------------
     bodyfat |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
       thigh |  -2.856842   2.582015    -1.11   0.285    -8.330468    2.616785
     triceps |   4.334085   3.015511     1.44   0.170    -2.058512    10.72668
      midarm |  -2.186056   1.595499    -1.37   0.190    -5.568362     1.19625
       _cons |   117.0844   99.78238     1.17   0.258    -94.44474    328.6136
------------------------------------------------------------------------------

. corr bodyfat thigh triceps midarm 
(obs=20)

             |  bodyfat    thigh  triceps   midarm
-------------+------------------------------------
     bodyfat |   1.0000
       thigh |   0.8781   1.0000
     triceps |   0.8433   0.9238   1.0000
      midarm |   0.1424   0.0847   0.4578   1.0000


. ellip thigh triceps, coefs plot( (scatteri `=_b[thigh]' `=_b[triceps]'), yline(0, lcolor(gray)) xline(0, lcolor(gray)) legend(off))

введіть тут опис зображення

Як видно з таблиці регресії, все є несуттєвим, хоча р-значення дещо відрізняються.

Остання команда Stata графікує область довіри для 2 коефіцієнтів регресії (двовимірний аналог знайомих довірчих інтервалів) разом з точковими оцінками (червона крапка). Довірочний еліпс для коефіцієнтів товщини шкірної складки та окружності стегон довгий, вузький і нахилений, що відображає колінеарність у регресорах. Між розрахунковими коефіцієнтами висока негативна коваріація. Еліпс охоплює частини вертикальної та горизонтальної осей, а це означає, що ми не можемо відкинути окремі гіпотези про те, що s дорівнює нулю, хоча ми можемо відхилити спільний нуль, який є обома, оскільки еліпс не покриває походження. Іншими словами, або стегна, і трицепси мають відношення до жиру, але ви не можете визначити, хто з них є винуватцем.β

Тож як ми можемо знати, які прогнози були б менш значущими? Варіації регресора можна класифікувати на два типи:

  1. Варіація, унікальна для кожного регресора
  2. Варіація, яку поділяють регресори

При оцінці коефіцієнтів кожного регресора буде використовуватися лише перший. Загальна варіація ігнорується, оскільки її неможливо виділити, хоча вона використовується для прогнозування та обчислення . Коли мало унікальної інформації, довіра буде низькою, а коефіцієнти розбіжності будуть великими. Чим більша мультиколінеарність, тим менша унікальна варіація і тим більше дисперсії. R2


* Шкірна складка - це ширина складки шкіри, взята над м’язом трицепса, і вимірюється за допомогою супорта.


Мені подобається ваш приклад, але строго кажучи, це був би контрприклад, якби вислів у первісному запитанні сказав "якщо [...], лише один буде незначним", але у ньому немає слова "тільки".
амеба каже, що повернеться до Моніки

@amoeba Це відмінний момент. Я зміню свій коментар.
Мастеров Димитрій Вікторович

Чи можете ви надати якусь формулу для подальшої ілюстрації: "При оцінці коефіцієнтів кожного регресора буде використовуватися лише перший. Загальна варіація ігнорується, оскільки вона не може бути виділена"
mac

3

Як зазначав @whuber, це складне питання. Однак перше речення вашого допису - це величезне спрощення. Часто буває так, що дві (або більше) змінних будуть корельовані і обидві пов'язані із залежною змінною. Значні вони чи ні, залежить як від розміру ефекту, так і від розміру клітини.

У вашому прикладі, припустимо, що для даного розміру будинку люди віддавали перевагу меншій кількості кімнат (принаймні, в Нью-Йорку, це нерозумно - це означатиме старі будинки, міцніші стіни тощо, і може бути маркером для сусідства). Тоді обидва могли бути значущими, у протилежних напрямках!

Або, припустимо, ці дві величини були розмірами будинків та сусідством - це, безумовно, співвідноситься великі будинки в кращих мікрорайонах, - але вони все одно можуть бути значними і, безумовно, обидва стосуватимуться ціни на будинок.

Також, використовуючи лише "співвідносні" складності масок. Змінні можуть бути сильно пов’язані між собою, не будучи взаємозв’язаними.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.