відношення між простої регресії та множинною регресією


10

Дуже основне питання, що стосується регресій OLSR2

  1. запустіть регресію OLS y ~ x1, маємо , скажімо, 0,3R2
  2. запустіть регресію OLS y ~ x2, у нас є інший , скажімо, 0,4R2
  3. тепер ми запускаємо регресію y ~ x1 + x2, яким значенням може бути R квадрату регресії?

Я думаю, що зрозуміло, що для множинної регресії має бути не менше 0,4, але чи можливо це більше 0,7?R2


2
Підказка: Це може бути до 1,0. Чому? (Подумайте геометрично. Або, навіть конкретно, про одиничне коло.)
кардинал

Відповіді:


4

Другий регресор може просто компенсувати те, що першому не вдалося пояснити у залежній змінній. Ось чисельний приклад:

Створіть x1як стандартний нормальний регресор, розмір вибірки 20. Без втрати загальності візьміть , де також . Тепер візьміть другий регресор як просто різницю між залежною змінною та першим регресором.yi=0.5x1i+uiuiN(0,1)x2

n <- 20 
x1 <- rnorm(n)

y <- .5*x1 + rnorm(n)

x2 <- y - x1
summary(lm(y~x1))$r.squared
summary(lm(y~x2))$r.squared
summary(lm(y~x1+x2))$r.squared

Дякую! У мене було неправильне розуміння r квадрата. Я думав, що якщо x1 + x2 = yтоді summary(lm(y~x1))$r.squared + summary(lm(y~x2))$r.squaredмає бути не менше 1., але явно помиляюся ..
Олів'є Ма

3

Крім нижньої межі, яка становить 0,3 або 0,4, залежно від того, яка змінна спочатку входить до моделі, можна сказати не так багато. Скільки зростає багато в чому залежить від інформації, яку друга модель вводить у модель. Під інформацією ми, звичайно, маємо на увазі пояснену варіацію відповіді.R2

Є одна концепція, яка є критичною у цьому плані, і це співвідношення між прогнозами. Якщо кореляція велика, нова змінна не тільки не принесе нічого до моделі, але й ускладнить висновок для існуючих змінних, оскільки оцінки стануть неточними (мультиколінеарність). З цієї причини ми б вважали за краще, щоб нова змінна була ортогональною для інших. Шанси невеликі, щоб це відбулося в спостережних дослідженнях, але це може бути здійснено в контрольованих умовах, наприклад, коли ви будуєте власний експеримент.

Але як ви точно визначите нову інформацію, яку змінна внесе до моделі? Один широко використовуваний показник , який приймає все це до уваги , є частковим . Якщо ви знайомі з ANOVA лінійної моделі, це не що інше, як пропорційне зменшення суми помилок квадратів, яке ви досягнете, включивши цю змінну у вашу модель. Високі відсотки бажані, тоді як низькі, ймовірно, змусять задуматися, чи це правильний шлях дії. R2

Отже, як @cardinal зазначав у коментарях, ваш новий коефіцієнт визначення може бути рівним 1. Він також може становити 0,400001. Немає способу сказати без додаткової інформації.


@JohnK, чи не заперечуєте ви далі пояснити, чому це потрібно СТРУКТУРНО більше, ніж 0,4? Чи допомогла б тут геометрична інтерпретація регресії?
Днайел

@Dnaiel Коефіцієнт визначення не зменшується щодо кількості змінних у моделі.
ДжонК

3

Коефіцієнт визначення у множинній лінійній регресії: У множинній лінійній регресії коефіцієнт визначення може бути записаний у вигляді парних кореляцій для змінних, використовуючи квадратичну форму:

R2=ry,xTrx,x1ry,x,

де - вектор співвідношень між вектором відповіді та кожним із пояснюючих векторів, і є матриця кореляцій між пояснювальними векторами (докладніше про це див цей родинний питання ). У випадку двоваріантної регресії у вас є:ry,xrx,x

R2=[rY,X1rY,X2]T[1rX1,X2rX1,X21]1[rY,X1rY,X2]=11rX1,X22[rY,X1rY,X2]T[1rX1,X2rX1,X21][rY,X1rY,X2]=11rX1,X22(rY,X12+rY,X222rX1,X2rY,X1rY,X2).

У вашому запитанні ви не вказали вказівки одновимірних кореляцій, тому без втрати загальності ми позначимо . Підставлення значень і виходу:Dsgn(rY,X1)sgn(rY,X2){1,+1}rY,X12=0.3rY,X22=0.4

R2=0.720.12DrX1,X21rX1,X22.

Це можливо для , оскільки можлива, що об'єднана інформація з двох змінних буде більшою, ніж сума її частин. Це цікаве явище називається «посиленням» (див., Наприклад, Lewis and Escobar 1986 ).R2>0.7

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.