Тема, яку ви запитуєте, - це мультиколінеарність . Можливо, ви хочете прочитати деякі теми в CV, що класифікуються під тегом мультиколінеарності . @ Whuber в відповідь пов'язаний вище , зокрема , також варто вашого часу.
Твердження, що "якщо два предиктори співвідносяться і обидва включені в модель, один буде незначним", не є правильним. Якщо існує реальна дія змінної, ймовірність того, що змінна буде значною, є функцією кількох речей, таких як величина ефекту, величина дисперсії помилки, дисперсія самої змінної, кількість даних у вас є і кількість інших змінних у моделі. Чи співвідносяться змінні також важливо, але це не перекриває ці факти. Розглянемо наступну просту демонстрацію в R
:
library(MASS) # allows you to generate correlated data
set.seed(4314) # makes this example exactly replicable
# generate sets of 2 correlated variables w/ means=0 & SDs=1
X0 = mvrnorm(n=20, mu=c(0,0), Sigma=rbind(c(1.00, 0.70), # r=.70
c(0.70, 1.00)) )
X1 = mvrnorm(n=100, mu=c(0,0), Sigma=rbind(c(1.00, 0.87), # r=.87
c(0.87, 1.00)) )
X2 = mvrnorm(n=1000, mu=c(0,0), Sigma=rbind(c(1.00, 0.95), # r=.95
c(0.95, 1.00)) )
y0 = 5 + 0.6*X0[,1] + 0.4*X0[,2] + rnorm(20) # y is a function of both
y1 = 5 + 0.6*X1[,1] + 0.4*X1[,2] + rnorm(100) # but is more strongly
y2 = 5 + 0.6*X2[,1] + 0.4*X2[,2] + rnorm(1000) # related to the 1st
# results of fitted models (skipping a lot of output, including the intercepts)
summary(lm(y0~X0[,1]+X0[,2]))
# Estimate Std. Error t value Pr(>|t|)
# X0[, 1] 0.6614 0.3612 1.831 0.0847 . # neither variable
# X0[, 2] 0.4215 0.3217 1.310 0.2075 # is significant
summary(lm(y1~X1[,1]+X1[,2]))
# Estimate Std. Error t value Pr(>|t|)
# X1[, 1] 0.57987 0.21074 2.752 0.00708 ** # only 1 variable
# X1[, 2] 0.25081 0.19806 1.266 0.20841 # is significant
summary(lm(y2~X2[,1]+X2[,2]))
# Estimate Std. Error t value Pr(>|t|)
# X2[, 1] 0.60783 0.09841 6.177 9.52e-10 *** # both variables
# X2[, 2] 0.39632 0.09781 4.052 5.47e-05 *** # are significant
Кореляція між двома змінними є найнижчою у першому прикладі та найвищою у третьому, проте жодна змінна не є істотною у першому прикладі, і обидві є в останньому прикладі. Величина ефектів однакова у всіх трьох випадках, а відхилення змінних та помилок повинні бути однаковими (вони стохастичні, але виведені з популяцій з однаковою дисперсією). Шаблон, який ми бачимо тут, зумовлений насамперед моїм маніпулюванням s для кожного випадку. N
Ключова концепція, яку потрібно зрозуміти для вирішення ваших питань, - коефіцієнт дисперсії дисперсії (VIF). VIF - наскільки варіація коефіцієнта регресії більша, ніж це було б інакше, якби ця зміна була повністю некорельованою з усіма іншими змінними в моделі. Зауважте, що VIF є мультиплікативним фактором, якщо змінна, про яку йдеться, некорельована, VIF = 1. Просте розуміння VIF полягає в наступному: ви можете підходити до моделі передбачення змінної (скажімо, ) з усіх інших змінних у вашій моделі (скажімо, ) і отримувати кратне . VIF для буде . Скажімо, VIF для булоX 2 R 2 X 1 1 / ( 1 - R 2 ) X 1 10 X 1 10 × X 1X1X2R2X11/(1−R2)X110(Часто розглядається як поріг для надмірної мультіколлінеарності), то дисперсія вибіркового розподілу коефіцієнта регресії для буде більше , ніж це було б , якщо був повністю некорреліровани із усіма іншими змінними в моделі. X110×X1
Думаючи про те, що буде, якби ви включили обидві корельовані змінні порівняно лише з однією, є подібною, але трохи складнішою, ніж підхід, обговорений вище. Це тому, що, не враховуючи змінних засобів, модель використовує менший ступінь свободи, що змінює залишкову дисперсію і все, що обчислюється з цього (включаючи дисперсію коефіцієнтів регресії). Крім того, якщо невключена змінна дійсно пов'язана з відповіддю, дисперсія у відповіді завдяки цій змінній буде включена до залишкової дисперсії, зробивши її більшою, ніж вона була б інакше. Таким чином, кілька речей змінюються одночасно (змінна співвідноситься чи ні з іншою змінною, і залишкова дисперсія), і точний ефект відпадання / включення іншої змінної буде залежати від того, як вони торгуються.
Ось озброєний розумінням ВІФ, ось відповіді на ваші запитання:
- Оскільки дисперсія розподілу вибірки коефіцієнта регресії була б більшою (на коефіцієнт VIF), якби вона була співвіднесена з іншими змінними в моделі, p-значення були б вищими (тобто, менш значущими), ніж в іншому випадку .
- Відхилення коефіцієнтів регресії були б більшими, як уже обговорювалося.
- Взагалі, це важко знати без вирішення для моделі. Як правило, якщо лише одне з двох є значущим, саме той, що мав більш сильну двоваріантну кореляцію з . Y
- Як змінилися б прогнозовані значення та їх відмінність, досить складно. Це залежить від того, наскільки сильно співвідносяться змінні та від того, як вони, схоже, пов'язані зі змінною вашої відповіді у ваших даних. Щодо цього питання, можливо, вам допоможе прочитати мою відповідь тут: Чи є різниця між "контролем за" та "ігноруванням" інших змінних при множинній регресії?