Чи додає більше змінних до багатовимірної регресії зміни коефіцієнтів існуючих змінних?


16

Скажімо, у мене є багатовимірна (кілька незалежних змінних) регресії, яка складається з 3 змінних. Кожна з цих змінних має заданий коефіцієнт. Якщо я вирішу ввести 4-ту змінну і повторити регресію, чи зміняться коефіцієнти трьох вихідних змінних?

Більш широко: в регресії багатовимірної (декількох незалежних змінних) коефіцієнт даної змінної впливає на коефіцієнт іншої змінної?


1
Будь ласка, відредагуйте питання, щоб бути більш точним. Ви multivariableмаєте на увазі безліч незалежних змінних ("множинна регресія") або декілька залежних змінних ("багатоваріантна регресія" або "MAN (C) OVA")?
ttnphns

1
Якби відповідь була ні, в першу чергу не було б необхідності робити багатовимірну регресію! (ми могли просто зробити багато
незмінних

1
Це проникливий момент, @ user603, але я думаю, що все-таки може бути місце для багаторазової регресії, оскільки, якщо інші змінні були значимо пов'язані з відповіддю (хоч і не пояснювальною змінною), вони можуть зменшити залишкову дисперсію, що призведе до покращення потужність і точність.
gung - Відновіть Моніку

Відповіді:


23

Оцінка параметрів у регресійній моделі ) зміниться , якщо змінні, X J , додаються до моделі , яка є: β^iXj

  1. співвідноситься з відповідною змінною цього параметра, (яка вже була в моделі) таXi
  2. корелює зі змінною відповіді, Y

Орієнтовна бета-версія не зміниться, коли буде додана нова змінна, якщо будь-яке з перерахованих вище є некорельованим. Зауважимо, що вони не співвідносяться у сукупності (тобто , або ρ ( X j , Y ) = 0 ) не має значення. Важливо те, що обидві кореляції вибірки є рівно 0ρ(Xi,Xj)=0 ρ(Xj,Y)=00 . Насправді це ніколи не буде на практиці, якщо ви не працюєте з експериментальними даними, де змінні були маніпульовані таким чином, що вони не співвідносяться між собою по дизайну.

Зауважте також, що кількість змін параметрів може бути не дуже важливою (що залежить, принаймні частково, від вашої теорії). Більше того, величина, яку вони можуть змінювати, є функцією величин двох вищезгаданих кореляцій.

З іншого боку, не дуже коректно вважати це явище як "коефіцієнт даної змінної [на що] впливає коефіцієнт іншої змінної". Не бета впливає один на одного. Це явище є природним результатом алгоритму, який статистичне програмне забезпечення використовує для оцінки параметрів нахилу. Уявіть ситуацію, коли викликається і X i, і X j , які в свою чергу співвідносяться між собою. Якщо в моделі є лише X i , деякі зміни Y , пов'язані з X j, будуть недоцільно віднесені до X iYXiXjXiYXjXi. Це означає, що значення є упередженим; це називається опущеною зміною зміщення . Xi


Дуже гарно в цьому останньому реченні.
Glen_b -Встановити Моніку

Я обговорюю зворотний бік цього питання у своїй відповіді тут: Оцінка замість b 1 x 1 + b 2 x 2 + b 3 x 3b1x1+b2x2b1x1+b2x2+b3x3 .
gung - Відновити Моніку

yx2x1yx1x1yY

1
s1

@gung дякую за відповідь. Чи знаєте ви спосіб створення таких ідеальних даних? я знаю, що в реальному житті не може статися
floyd

3

Математично можливо, що коефіцієнти не зміняться, але навряд чи зміни дійсних взагалі не відбудуться, навіть якщо всі незалежні змінні не залежать одна від одної. Але, коли це так, зміни (крім перехоплення), як правило, становлять 0:

set.seed(129231)
x1 <- rnorm(100)
x2 <- rnorm(100)
x3 <- rnorm(100)
x4 <- rnorm(100)
y <- x1 + x2 + x3 + x4 + rnorm(100, 0, .2)
lm1 <- lm(y~x1+x2+x3)
coef(lm1)
lm2 <- lm(y~x1+x2+x3+x4)
coef(lm2)

У реальному світі, однак, незалежні змінні часто пов'язані між собою. У цьому випадку додавання 4-ї змінної до рівняння змінить інші коефіцієнти, іноді на багато.

Тоді можливі взаємодії .... але це вже інше питання.


1

Взагалі кажучи, так, додавання змінної майже завжди змінює попередні коефіцієнти.

Дійсно, це по суті є причиною парадоксу Сімпсона , коли коефіцієнти можуть змінюватися, навіть зворотним знаком, через опущені коваріати.

Щоб цього не сталося, нам знадобиться, щоб нові змінні були ортогональними попереднім. Це часто трапляється в розроблених експериментах, але малоймовірно, що це трапиться в даних, коли модель незалежних змінних не планується.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.