Як додавання ІІ IV може зробити ІV важливим?


64

У мене є те, що, ймовірно, просте питання, але це мене зараз бентежить, тому я сподіваюся, що ви можете мені допомогти.

У мене є модель регресії найменших квадратів, з однією незалежною змінною та однією залежною змінною. Відносини не суттєві. Тепер я додаю другу незалежну змінну. Тепер зв’язок між першою незалежною змінною та залежною змінною стає значущим.

Як це працює? Це, мабуть, демонструє якесь питання з моїм розумінням, але мені, але я не бачу, як додавання цієї другої незалежної змінної може зробити першу істотною.


4
Це дуже широко обговорювана тема на цьому сайті. Можливо, це пов'язано з колінеарністю. Зробіть пошук "колінеарності", і ви знайдете десятки релевантних тем. Пропоную прочитати деякі відповіді на stats.stackexchange.com/questions/14500/…
Макрос

3
можливий дублікат значущих предикторів стає незначним при багаторазовій логістичній регресії . Є багато ниток, це фактично є дублікатом - це був найближчий, який я міг знайти за дві хвилини
Макрос

3
Це свого роду протилежна проблема тієї, що в потоці @macro щойно знайдена, але причини дуже схожі.
Пітер Флом

3
@Macro, я думаю, ти маєш рацію, що це може бути дублікат, але я думаю, що питання тут трохи відрізняється від 2-х запитань вище. ОП не стосується значущості моделі в цілому, а також змінних, які стають несуттєвими з / додатковими IV. Я підозрюю, що йдеться не про мультиколінеарність, а про владу чи можливо придушення.
gung - Відновіть Моніку

3
також, @gung, придушення в лінійних моделях відбувається лише тоді, коли є колінеарність - різниця полягає в інтерпретації, тому "мова не йде про мультиколінеарність, а про можливе придушення", створює хибну дихотомію
Макрос

Відповіді:


78

Хоча колінеарність (змінних предикторів) є можливим поясненням, я хотів би припустити, що це не освітлююче пояснення, оскільки ми знаємо, що колінеарність пов'язана із "загальною інформацією" серед провісників, тому немає нічого загадкового чи контрінтуїтивного з боку ефект від введення у модель другого корельованого предиктора.

Давайте розглянемо випадок двох предикторів, які є справді ортогональними : між ними абсолютно немає колінеарності. Чудова зміна значущості все ж може відбутися.

Позначте змінні предиктора і і дозвольте назвати передбачення. Регресія відношенню до не буде значущою, коли коливання навколо її середнього не помітно зменшиться, коли використовується як незалежна змінна. Однак коли ця зміна сильно пов'язана з другою змінною , ситуація змінюється. Нагадаємо, що множинна регресія щодо та рівносильнаX 2 Y Y X 1 Y X 1 X 2 Y X 1 X 2X1X2YYX1YX1X2YX1X2

  1. Окремо регресуйте та проти .X 1 X 2YX1X2

  2. Регресуйте залишки проти залишків .X 1YX1

Залишки з першого кроку зняли ефект . Коли тісно корелює зX 2 YX2X2Y , це може виявити порівняно невелику кількість варіацій, які раніше були замасковані. Якщо ця варіація пов'язана з , ми отримуємо значний результат.X1


Все це, можливо, може бути прояснено конкретним прикладом. Для початку скористаємося Rдля генерації двох ортогональних незалежних змінних разом з деякою незалежною випадковою помилкою :ε

n <- 32
set.seed(182)
u <-matrix(rnorm(2*n), ncol=2)
u0 <- cbind(u[,1] - mean(u[,1]), u[,2] - mean(u[,2]))
x <- svd(u0)$u
eps <- rnorm(n)

( svdКрок запевняє, що два стовпці матриці x(що представляють і X 2 ) є ортогональними, виключаючи колінеарність як можливе пояснення будь-яких наступних результатів.)X1X2

Далі створіть як лінійну комбінацію X і помилки. Я скоригував коефіцієнти для отримання контрінтуїтивної поведінки:YX

y <-  x %*% c(0.05, 1) + eps * 0.01

Це реалізація моделі з n = 32 випадками.YiidN(0.05X1+1.00X2,0.012)n=32

Подивіться на дві регресії, про які йдеться. По-перше , регресуйте проти X 1 :YX1

> summary(lm(y ~ x[,1]))
...
             Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.002576   0.032423  -0.079    0.937
x[, 1]       0.068950   0.183410   0.376    0.710

Високе значення p 0,710 показує, що абсолютно несуттєво.X1

Далі , регресуйте проти X 1 і X 2 :YX1X2

> summary(lm(y ~ x))
...
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) -0.002576   0.001678  -1.535    0.136    
x1           0.068950   0.009490   7.265 5.32e-08 ***
x2           1.003276   0.009490 105.718  < 2e-16 ***

Несподівано, в присутності , X 1 є сильно значним, як показано р-значень поблизу нуля для обох змінних.X2X1

Ми можемо візуалізувати цю поведінку за допомогою матриці розсіювання змінних , X 2 та Y разом із залишками, що використовуються в двоступеневій характеристиці множинної регресії вище. Оскільки X 1 і X 2 є ортогональними, залишки X 1 будуть такими ж, як X 1, і тому їх не потрібно переробляти. Ми включимо залишки Y проти X 2 в матрицю розсіювання, даючи цю цифру:X1X2YX1X2X1X1YX2

lmy <- lm(y ~ x[,2])
d <- data.frame(X1=x[,1], X2=x[,2], Y=y, RY=residuals(lmy))
plot(d)

Ось його рендерінг (з невеликим попередженням):

SPM

Ця матриця графіки має чотири рядки та чотири стовпчики, які я буду рахувати зверху та зліва направо.

Зверніть увагу:

  • Розсіяння у другому ряді та першому стовпчику підтверджує ортогональність цих предикторів: найменша лінія квадратів є горизонтальною, а кореляція дорівнює нулю.(X1,X2)

  • Розсіювач у третьому ряду та першому стовпчику демонструє незначну, але абсолютно незначну залежність, про яку повідомляє перша регресія Y проти X 1 . (Коефіцієнт кореляції, ρ , становить лише 0,07 ).(X1,Y)YX1ρ0.07

  • Розсіювач у третьому ряду та другому стовпці показує сильну залежність між Y та другою незалежною змінною. (Коефіцієнт кореляції 0,996 ).(X2,Y)Y0.996

  • Четвертий рядок досліджує відносини між залишками з (регресувати проти X 2 ) та інших змінних:YX2

    • Вертикальна шкала показує, що залишки (відносно) досить малі: ми не могли легко побачити їх у розкиданні проти X 2 .YX2

    • Залишки будуть сильно корелювати з ( р = 0,80 ). Регресія проти X 2 розкрила цю раніше приховану поведінку.X1ρ=0.80X2

    • За побудовою немає залишкової кореляції між залишками та .X2

    • Між та цими залишками існує невелика кореляція ( ρ = 0,09 ). Це показує, як залишки можуть поводитися зовсім інакше, ніж сам Y. Саме тому X 1 може раптом виявитись як значний фактор, що сприяє регресуванню.Yρ=0.09YX1

Нарешті, варто зазначити, що дві оцінки коефіцієнта (обидва рівні 0,06895 , недалеко від запланованого значення 0,05 ) узгоджуються лише тому, що X 1 і X 2 є ортогональними. За винятком розроблених експериментів, ортогональність рідко дотримується точно. Відхід від ортогональності зазвичай призводить до зміни оцінок коефіцієнта.X10.068950.05X1X2


Отже, я розумію, що пояснює мінливість, яку X 2 не робить. Чи потрібно це, щоб X 2 був (більше) значущим, ніж X 1 ? Чи можна зробити X 1 значущим без значення X 2 ? X1X2X2X1X1X2
Рональд

@ Ronald, я вважаю, що відповіді на ваші запитання відповідно - ні і так. Ви можете дізнатися, змінивши приклад у цій відповіді: змінити коефіцієнти (0,05 та 0,01) у моделі та кількість випадків ( ), щоб побачити, що відбувається. n=32
whuber

23

Я думаю, що це питання було обговорено раніше на цьому сайті досить ретельно, якщо ви просто знали, де шукати. Тому я, мабуть, пізніше додаю коментар із посиланнями на інші запитання, або можу відредагувати це, щоб надати більш повне пояснення, якщо я не можу його знайти.

Є дві основні можливості: По-перше, інший IV може поглинати частину залишкової мінливості і, таким чином, збільшувати потужність статистичного тесту початкового IV. Друга можливість полягає в тому, що у вас є супресорна змінна. Це дуже контр-інтуїтивна тема, але ви можете знайти трохи інформації тут *, тут чи цю відмінну тему резюме .

* Зауважте, що вам потрібно прочитати весь шлях до низу, щоб дістатись до тієї частини, яка пояснює змінні супресора, ви можете просто пропустити туди, але вам найкраще послужить, прочитавши всю справу.


Редагувати: як було обіцяно, я додаю більш повне пояснення моєї точки зору, як інший IV може поглинати частину залишкової мінливості і, таким чином, збільшуючи потужність статистичного тесту початкового IV. @whuber додав вражаючий приклад, але я подумав, що можу додати безкоштовний приклад, який пояснює це явище по-іншому, що може допомогти деяким людям зрозуміти це явище чіткіше. Крім того, я демонструю, що другий ІV не повинен бути сильніше асоційований (хоча на практиці це майже завжди буде мати місце).

tFt

SourceSSdfMSFx1(y^iy¯)21SSx1dfx1MSx1MSresResidual(yiy^i)2N(1+1)SSresdfresTotal(yiy¯)2N1

y¯yyiyiy^iiN

SourceSSdfMSFx1(y^x1ix¯2y¯)21SSx1dfx1MSx1MSresx2(y^x¯1x2iy¯)21SSx2dfx2MSx2MSresResidual(yiy^i)2N(2+1)SSresdfresTotal(yiy¯)2N1

y^x1ix¯2ix1x2x2x¯2 x2для деяких спостережень, у цьому випадку ніяких коригувань не слід вносити, але це зазвичай не так. Зауважте, що цей метод створення таблиці ANOVA дійсний лише в тому випадку, якщо всі змінні є ортогональними; це дуже спрощений випадок, створений для експозиційних цілей.

x2yy¯x1x2SSx1x2SSx1SSresdfx2dfres

Fx1MSx1MSresMSx1MSresx2x2Ftx2x2MSresFx1p

x2x1ppR

x1 = rep(1:3, times=15)
x2 = rep(1:3, each=15)
cor(x1, x2)     # [1] 0
set.seed(11628)
y       = 0 + 0.3*x1 + 0.3*x2 + rnorm(45, mean=0, sd=1)
model1  = lm(y~x1)
model12 = lm(y~x1+x2)

anova(model1)
#  ...
#           Df Sum Sq Mean Sq F value  Pr(>F)  
# x1         1  5.314  5.3136  3.9568 0.05307 .
# Residuals 43 57.745  1.3429                  
#  ...
anova(model12)
#  ...
#           Df Sum Sq Mean Sq F value  Pr(>F)  
# x1         1  5.314  5.3136  4.2471 0.04555 *
# x2         1  5.198  5.1979  4.1546 0.04785 *
# Residuals 42 52.547  1.2511                  
#  ...

x2

set.seed(1201)
y       = 0 + 0.3*x1 + 0.3*x2 + rnorm(45, mean=0, sd=1)
anova(model1)
# ...
#           Df Sum Sq Mean Sq F value  Pr(>F)  
# x1         1  3.631  3.6310  3.8461 0.05636 .
# ...
anova(model12)
# ...
#           Df Sum Sq Mean Sq F value  Pr(>F)  
# x1         1  3.631  3.6310  4.0740 0.04996 *
# x2         1  3.162  3.1620  3.5478 0.06656 .
# ...

Це, правда, нічого подібного до драматичного прикладу в посту @ whuber, але вони можуть допомогти людям зрозуміти, що тут відбувається.


1
(+1) для "По-перше, інший IV може поглинути частину залишкової мінливості і, таким чином, збільшити потужність статистичного тесту початкового IV", який @whuber дав чудовий приклад
Макрос

(+1) На початку ви даєте три посилання. Перший (зовнішній), на жаль, порушений (помилка 404). Крім того: ви кажете, що існують "дві основні можливості": доданий другий IV збільшує потужність для тестування першого IV (і це саме ситуація, описана Вюбером та Вейном у своїх відповідях) або є змінна супресора (який, btw? перший чи другий?). Моє запитання: це справді дві різні ситуації? Або це по суті одне і те ж, може бути розглянуто трохи інакше? Було б чудово, якби ви могли розширити це.
Амеба каже, що повернеться до Моніки


@gung, дякую за відповідь. Ttnphns починається з посилання на документ, що обговорює придушення та деякі інші пов'язані з цим ефекти, і цей документ стверджує, що "найбільш загальноприйнятим визначенням змінної супресора (Tzelgov & Henik, 1991) [є]" змінна, яка збільшує прогнозовану валідність іншої змінної (або набору змінних) шляхом її включення в рівняння регресії "". Це звучить саме як те, про що тут питала ОП, тому я вас збентежив, сказавши, що можуть бути дві різні причини.
Амеба каже, що повернеться до Моніки

1
@amoeba, справа в тому, що у вас є два різні механізми. Тобто у вас є дві різні основні DAG. Зовнішній прояв може бути подібним, і додаткова потужність може бути більшою чи меншою, але причина, чому 2-а змінна допомагає, відрізняється b / c, відношення 2-ї змінної до x1 & y відрізняються. Якщо це не зрозуміло, вам може знадобитися задати нове запитання; важко зробити занадто багато в коментарях.
gung - Відновіть Моніку

17

Схоже, що питання ОП можна інтерпретувати двома різними способами:

  1. Математично, як працює OLS, завдяки чому додавання незалежної змінної може несподівано змінити результати?

  2. Як можна змінити модель, додавши одну змінну, змінити дію іншої незалежної змінної в моделі?

На питання №1 вже є кілька хороших відповідей. І питання №2 може бути настільки очевидним для експертів, що вони припускають, що ОП має натомість задавати питання №1. Але я вважаю, що питання №2 заслуговує на відповідь, яка могла б бути на зразок:

Почнемо з прикладу. Скажіть, що у вас були висоти, вік, стать тощо для кількох дітей, і ви хотіли зробити регрес, щоб передбачити їхній зріст.

Ви починаєте з наївної моделі, яка використовує гендер як незалежну змінну. І це не є статистично значущим. (Як це могло бути, ви змішуєте 3-річних дітей та підлітків-агерів.)

Потім ви додаєте у віці, і раптом не тільки вік є значущим, але і статтю. Як це могло бути?

Звичайно, на моєму прикладі ви чітко бачите, що вік є важливим фактором росту дитини / підлітка. Мабуть, найважливіший фактор, про який у вас є дані. Стать також може мати значення, особливо для дітей старшого віку та дорослих, але одна лише стать - це погана модель того, наскільки висока дитина.

Вік плюс стать - це розумна (хоча, звичайно, спрощена) модель, яка відповідає адекватним завданням. Якщо ви додасте інші дані - взаємодію віку та статі, дієти, зросту батьків тощо, ви можете зробити ще кращу модель, яка, звичайно, все ж спроститься порівняно з безліччю факторів, які фактично визначають ріст дитини, але знову ж таки всі моделі - це спрощені версії реальності. (Карта світу, що має масштаб 1: 1, не дуже корисна для мандрівника.)

Ваша оригінальна модель (лише для статі) занадто спрощена - настільки спрощена, що вона по суті зламана. Але це не означає, що гендер не корисний у кращій моделі.

EDIT: додано пропозицію Гунга щодо: терміну взаємодії віку та статі.


1
+1, nb, вік та стать, імовірно, також потребують терміну взаємодії.
gung - Відновіть Моніку

1
+1 Це відмінний приклад , тому що він настільки простий і інтуїтивно зрозумілий, і в тих же припадках саме до ситуації , описаної в набагато більш докладно , але тільки абстрактно @whuber в його прийнято відповідати тут.
Амеба каже, що поверніть Моніку

10

У цій темі вже є три відмінних відповіді (+1 до кожного). Моя відповідь - це розширений коментар та ілюстрація до моменту, зробленого @gung (що знадобило мені трохи часу, щоб зрозуміти):

Є дві основні можливості: По-перше, інший IV може поглинати частину залишкової мінливості і, таким чином, збільшувати потужність статистичного тесту початкового IV. Друга можливість полягає в тому, що у вас є супресорна змінна.

x1x2ynRnyx1x2(при цьому "матриця капелюхів" просто є проектором). Читачі, незнайомі з таким підходом, можуть ознайомитись, наприклад, у розділі «Елементи статистичного навчання» , розділ 3.2, або в багатьох інших книгах.

"Покращення"

На наступному малюнку показані обидві можливості, перелічені @gung. Спочатку розгляньте лише синю частину (тобто ігноруйте всі червоні лінії):

Посилення та придушення

x1x2Xyy^

x2yx1α90yx1x1

x2x1x2x1x2x2yβα90x1

Інший спосіб сказати, що тест тепер порівнює довжину OF з OG, а не з OC, як раніше; OF є мініатюрним і "незначним" порівняно з OC, але досить великим, щоб бути "значущим" порівняно з OG.

Це саме ситуація представлена @whuber, @gung і @Wayne в своїх відповідях. Я не знаю, чи має цей ефект стандартну назву в регресійній літературі, тому я назву це "посилення".

Придушення

α=90β=90x1

Не так у придушенні.

x3x1x2x3Xx1x3x1Xy

x1x1y


1
Я знайшов вашу відповідь найпростішим для розуміння за допомогою геометричної інтерпретації. Чудово!
zsljulius

1
α=0yx1yx1cor(x1,y)=1x1yyx1
qoheleth

α=90
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.