Я хотів би припустити, що це явище (несуттєва загальна перевірка, незважаючи на значну індивідуальну змінну), можна розуміти як певний сукупний "маскуючий ефект", і хоча воно, можливо, може виникнути з багатоклінічних пояснювальних змінних, цього не потрібно що зовсім. Також виявляється, що це не пов'язано з численними коригуваннями порівняння. Таким чином, ця відповідь додає певної кваліфікації до вже з'явлених відповідей, які навпаки говорять про те, що винуватці повинні розглядатися як мультиколінеарність, так і численні порівняння.
Щоб встановити правдоподібність цих тверджень, давайте генеруємо колекцію ідеально ортогональних змінних - настільки ж неколінеарних, наскільки це можливо - і залежної змінної, яка явно визначається виключно першим із пояснень (плюс хороша кількість випадкової помилки незалежно від усього іншого). У R
цьому можна зробити (відтворюється, якщо ви хочете експериментувати) як
set.seed(17)
p <- 5 # Number of explanatory variables
x <- as.matrix(do.call(expand.grid, lapply(as.list(1:p), function(i) c(-1,1))))
y <- x[,1] + rnorm(2^p, mean=0, sd=2)
Неважливо, що пояснювальні змінні є двійковими; Що важливо, це їх ортогональність, яку ми можемо перевірити, щоб переконатися, що код працює так, як очікувалося, що можна зробити, перевіривши їх кореляцію. Дійсно, кореляційна матриця цікава : малі коефіцієнти пропонують y
мало спільного ні з однією зі змінних, крім першої (що за конструкцією), а позадіагональні нулі підтверджують ортогональність пояснювальних змінних:
> cor(cbind(x,y))
Var1 Var2 Var3 Var4 Var5 y
Var1 1.00 0.000 0.000 0.000 0.00 0.486
Var2 0.00 1.000 0.000 0.000 0.00 0.088
Var3 0.00 0.000 1.000 0.000 0.00 0.044
Var4 0.00 0.000 0.000 1.000 0.00 -0.014
Var5 0.00 0.000 0.000 0.000 1.00 -0.167
y 0.49 0.088 0.044 -0.014 -0.17 1.000
Давайте проведемо ряд регресій , використовуючи лише першу змінну, потім перші дві тощо. Для стислості та простого порівняння я показую лише рядок першої змінної та загальний F-тест:
>temp <- sapply(1:p, function(i) print(summary(lm(y ~ x[, 1:i]))))
# Estimate Std. Error t value Pr(>|t|)
1 x[, 1:i] 0.898 0.294 3.05 0.0048 **
F-statistic: 9.29 on 1 and 30 DF, p-value: 0.00478
2 x[, 1:i]Var1 0.898 0.298 3.01 0.0053 **
F-statistic: 4.68 on 2 and 29 DF, p-value: 0.0173
3 x[, 1:i]Var1 0.8975 0.3029 2.96 0.0062 **
F-statistic: 3.05 on 3 and 28 DF, p-value: 0.0451
4 x[, 1:i]Var1 0.8975 0.3084 2.91 0.0072 **
F-statistic: 2.21 on 4 and 27 DF, p-value: 0.095
5 x[, 1:i]Var1 0.8975 0.3084 2.91 0.0073 **
F-statistic: 1.96 on 5 and 26 DF, p-value: 0.118
Подивіться, як (a) значення першої змінної ледь змінюється, (a ') перша змінна залишається значною (p <.05) навіть при коригуванні для декількох порівнянь ( наприклад , застосувати Bonferroni шляхом множення номінального p-значення на кількість пояснювальних змінних), (б) коефіцієнт першої змінної ледь змінюється, але (в) загальна значущість зростає в експоненціальній формі, швидко надуваючись до несуттєвого рівня.
Я трактую це як демонстрацію, що включення пояснювальних змінних, які значною мірою не залежать від залежної змінної, може «замаскувати» загальне p-значення регресії. Коли нові змінні є ортогональними для існуючих та залежної змінної, вони не змінять окремі p-значення. (Невеликі зміни, що спостерігаються тут, полягають у тому, що випадкова помилка, яка додається до y
, випадково злегка корелює з усіма іншими змінними.) Один урок, який випливає з цього, полягає в тому, що парсис є цінним : використання якомога менше змінних може посилити значення результати.
Я не кажу, що це обов'язково відбувається для набору даних у запитанні, про яке мало розкрито. Але знання про те, що цей ефект маскування може статися, повинно інформувати нашу інтерпретацію результатів, а також наші стратегії варіативного вибору та побудови моделі.