Діагностика колінеарності проблематична лише тоді, коли включений термін взаємодії


26

Я провів регресію в американських графствах і перевіряв наявність колінеарності у своїх "незалежних" змінних. Регресійна діагностика Belsley, Kuh та Welsch пропонує переглянути показник коефіцієнта стану та дисперсійного коефіцієнта:

library(perturb)
## colldiag(, scale=TRUE) for model with interaction
Condition
Index   Variance Decomposition Proportions
           (Intercept) inc09_10k unins09 sqmi_log pop10_perSqmi_log phys_per100k nppa_per100k black10_pct hisp10_pct elderly09_pct inc09_10k:unins09
1    1.000 0.000       0.000     0.000   0.000    0.001             0.002        0.003        0.002       0.002      0.001         0.000            
2    3.130 0.000       0.000     0.000   0.000    0.002             0.053        0.011        0.148       0.231      0.000         0.000            
3    3.305 0.000       0.000     0.000   0.000    0.000             0.095        0.072        0.351       0.003      0.000         0.000            
4    3.839 0.000       0.000     0.000   0.001    0.000             0.143        0.002        0.105       0.280      0.009         0.000            
5    5.547 0.000       0.002     0.000   0.000    0.050             0.093        0.592        0.084       0.005      0.002         0.000            
6    7.981 0.000       0.005     0.006   0.001    0.150             0.560        0.256        0.002       0.040      0.026         0.001            
7   11.170 0.000       0.009     0.003   0.000    0.046             0.000        0.018        0.003       0.250      0.272         0.035            
8   12.766 0.000       0.050     0.029   0.015    0.309             0.023        0.043        0.220       0.094      0.005         0.002            
9   18.800 0.009       0.017     0.003   0.209    0.001             0.002        0.001        0.047       0.006      0.430         0.041            
10  40.827 0.134       0.159     0.163   0.555    0.283             0.015        0.001        0.035       0.008      0.186         0.238            
11  76.709 0.855       0.759     0.796   0.219    0.157             0.013        0.002        0.004       0.080      0.069         0.683            

## colldiag(, scale=TRUE) for model without interaction
Condition
Index   Variance Decomposition Proportions
           (Intercept) inc09_10k unins09 sqmi_log pop10_perSqmi_log phys_per100k nppa_per100k black10_pct hisp10_pct elderly09_pct
1    1.000 0.000       0.001     0.001   0.000    0.001             0.003        0.004        0.003       0.003      0.001        
2    2.988 0.000       0.000     0.001   0.000    0.002             0.030        0.003        0.216       0.253      0.000        
3    3.128 0.000       0.000     0.002   0.000    0.000             0.112        0.076        0.294       0.027      0.000        
4    3.630 0.000       0.002     0.001   0.001    0.000             0.160        0.003        0.105       0.248      0.009        
5    5.234 0.000       0.008     0.002   0.000    0.053             0.087        0.594        0.086       0.004      0.001        
6    7.556 0.000       0.024     0.039   0.001    0.143             0.557        0.275        0.002       0.025      0.035        
7   11.898 0.000       0.278     0.080   0.017    0.371             0.026        0.023        0.147       0.005      0.038        
8   13.242 0.000       0.001     0.343   0.006    0.000             0.000        0.017        0.129       0.328      0.553        
9   21.558 0.010       0.540     0.332   0.355    0.037             0.000        0.003        0.003       0.020      0.083        
10  50.506 0.989       0.148     0.199   0.620    0.393             0.026        0.004        0.016       0.087      0.279        

?HH::vif припускає, що ВІФ> 5 є проблематичними:

library(HH)
## vif() for model with interaction
        inc09_10k           unins09          sqmi_log pop10_perSqmi_log      phys_per100k      nppa_per100k       black10_pct        hisp10_pct 
         8.378646         16.329881          1.653584          2.744314          1.885095          1.471123          1.436229          1.789454 
    elderly09_pct inc09_10k:unins09 
         1.547234         11.590162 

## vif() for model without interaction
        inc09_10k           unins09          sqmi_log pop10_perSqmi_log      phys_per100k      nppa_per100k       black10_pct        hisp10_pct 
         1.859426          2.378138          1.628817          2.716702          1.882828          1.471102          1.404482          1.772352 
    elderly09_pct 
         1.545867 

Тоді як регресійна діагностика Джона Фокса пропонує переглянути квадратний корінь ВІФ:

library(car)
## sqrt(vif) for model with interaction
        inc09_10k           unins09          sqmi_log pop10_perSqmi_log      phys_per100k      nppa_per100k       black10_pct        hisp10_pct 
         2.894589          4.041025          1.285917          1.656597          1.372987          1.212898          1.198428          1.337705 
    elderly09_pct inc09_10k:unins09 
         1.243879          3.404433 
## sqrt(vif) for model without interaction
        inc09_10k           unins09          sqmi_log pop10_perSqmi_log      phys_per100k      nppa_per100k       black10_pct        hisp10_pct 
         1.363608          1.542121          1.276251          1.648242          1.372162          1.212890          1.185108          1.331297 
    elderly09_pct 
         1.243329 

У перших двох випадках (де пропонується чітке відсічення) модель є проблематичною лише тоді, коли включений термін взаємодії.

Модель із терміном взаємодії до цього моменту була моєю перевагою.

У мене є два запитання з урахуванням цієї примхи даних:

  1. Чи завжди термін взаємодії погіршує колінеарність даних?
  2. Оскільки обидві змінні без терміну взаємодії не перевищують поріг, я добре, використовуючи модель із терміном взаємодії. Зокрема, причина, на яку я думаю, це може бути нормально, полягає в тому, що я використовую метод Кінга, Томза і Віттенберга (2000) для інтерпретації коефіцієнтів (негативна біноміальна модель), де я, як правило, утримую інші коефіцієнти в середньому, а потім інтерпретувати те, що відбувається з передбаченнями моєї залежної змінної, коли я рухаюсь inc09_10kі перебуваю unins09незалежно та спільно.

Відповіді:


31

Так, зазвичай це стосується нецентричних взаємодій. Швидкий погляд на те, що відбувається зі співвідношенням двох незалежних змінних та їх "взаємодією"

set.seed(12345)
a = rnorm(10000,20,2)
b = rnorm(10000,10,2)
cor(a,b)
cor(a,a*b)

> cor(a,b)
[1] 0.01564907
> cor(a,a*b)
[1] 0.4608877

І тоді, коли ви їх центруєте:

c = a - 20
d = b - 10
cor(c,d)
cor(c,c*d)

> cor(c,d)
[1] 0.01564907
> cor(c,c*d)
[1] 0.001908758

Х, Х2, ...

Тож ви можете зробити цей знімок зі своєю парою.


Щодо того, чому центрування допомагає - але повернемося до визначення коваріації

Ков(Х,ХY)=Е[(Х-Е(Х))(ХY-Е(ХY))]=Е[(Х-мкх)(ХY-мкху)]=Е[Х2Y-Хмкху-ХYмкх+мкхмкху]=Е[Х2Y]-Е[Х]мкху-Е[ХY]мкх+мкхмкху

Навіть отримавши незалежність X і Y

=Е[Х2]Е[Y]-мкхмкхмку-мкхмкумкх+мкхмкхмку=(σх2+мкх2)мку-мкх2мку=σх2мку

ХY


ХХYYХХYY


Цікаво, дякую. Чи є у вас пояснення чи цитування, чому значення центрування має значення?
Арі Б. Фрідман

Я думаю, що так - це ця відповідь не заслуговує на цілу винагороду, але я хотів би дати їй напівгранство. Не впевнений, що це станеться, якщо у нього не буде другого голосування: - /.
Арі Б. Фрідман

1
@ AriB.Friedman, у вас (точно) немає можливості віддати половину винагороди. Ви не можете присуджувати винагороду (хоча ви все одно втратили представник в будь-якому випадку), і це повідомлення, мабуть, буде присуджено половину винагороди автоматично (див. Відповідний розділ сторінки довідки ). Однак чому б ця відповідь не заслужила винагороду? Affine тут прямо тут (+1).
gung - Відновіть Моніку

@gung Я шукав попередню редагування. Однозначно це заслуговує зараз. Дякую @Affine! Що стосується половини баунті, то, наскільки я розумію, відповідь >=+2 отримує напівфабрикат, якщо він не присуджується вручну.
Арі Б. Фрідман

@ AriB.Friedman, це правильно, але, перш ніж я коментував (і виступив із заявою, і хтось зробив це також), у нього не було 2+ оновлень.
gung - Відновити Моніку

0

Наступні публікації на цю тему я вважаю корисними:

Robinson & Schumacker (2009): Ефекти взаємодії: центрирование, коефіцієнт дисперсії дисперсії та питання інтерпретації

"Вплив масштабування предиктора на коефіцієнти рівняння регресії (в центрі проти нецентрованих рішень та ефектів взаємодії вищого порядку (тристороння взаємодія; категоричні безперервні ефекти) вдумливо висвітлював Ейкен і Вест (1991). Їх приклад ілюструє, що значна мультиколінеарність вводиться в рівняння регресії з терміном взаємодії, коли змінні не в центрі. '

Afshartous & Preston (2011): Основні результати моделей взаємодії з центруванням

"Мотивація використання змінного центрування включає в себе посилену інтерпретацію коефіцієнтів та зменшення чисельної нестабільності для оцінки, пов'язаної з мультиколінеарністю".

Очевидно, Ейкен і Захід (1991) також висвітлюють цю тему, але у мене немає їхньої книги.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.