Чи існує елегантний / проникливий спосіб зрозуміти цю лінійну ідентичність регресії для декількох ?


10

У рамках лінійної регресії я натрапив на чудовий результат, який, якщо ми підходимо до моделі

E[Y]=β1X1+β2X2+c,

то, якщо ми стандартизуємо і відцентруємо дані , і ,YX1X2

R2=Cor(Y,X1)β1+Cor(Y,X2)β2.

Мені це здається двома змінною версією для регресії , що радує.R2=Cor(Y,X)2y=mx+c

Але єдиний мені відомий доказ - це ні в якому разі не конструктивний чи проникливий (див. Нижче), і все ж дивитись на це він здається, що це має бути легко зрозумілим.

Приклад думок:

  • Параметри і дають нам "пропорцію" і в , і тому ми приймаємо відповідні пропорції їх кореляцій ...β1β2X1X2Y
  • В - s часткові кореляції, є квадрат коефіцієнта множинної кореляції ... кореляції помножені на часткових кореляцій ...βR2
  • Якщо спочатку ортогоналізувати, то s буде ... чи має цей результат якийсь геометричний сенс?βCov/Var

Жодна з цих тем для мене, здається, нікуди не веде. Хтось може надати чітке пояснення, як зрозуміти цей результат.


Незадовільний доказ

R2=SSregSSTot=SSregN=(β1X1+β2X2)2=β12X12+β22X22+2β1β2X1X2

і

Cor(Y,X1)β1+Cor(Y,X2)β2=YX1β1+YX2β2=β1X12+β2X1X2β1+β1X1X2+β2X22β2=β12X12+β22X22+2β1β2X1X2

QED.


Ви повинні використовувати стандартизовані змінні, бо в іншому випадку ваша формула для не гарантовано лежить між і . Хоча це припущення з'являється у вашому доказі, воно допоможе зробити це явним на самому початку. Я також спантеличений тим, що ви насправді робите: ваш явно є функцією самої моделі - не маючи нічого спільного з даними - все ж ви починаєте згадувати, що ви "підходили" модель до чогось . R201R2
whuber

Чи не є вашим найкращим результатом лише той факт, що X1 та X2 ідеально некорельовані?
gung - Відновіть Моніку

@gung Я не думаю, що так - доказ внизу, схоже, говорить, що він працює незалежно. Цей результат мене теж дивує, тому
бажаю

@whuber Я не впевнений, що ти маєш на увазі під функцією "однієї моделі"? Я просто маю на увазі для простого OLS з двома змінними передбачувача. Тобто це 2 змінна версіяR2R2=Cor(Y,X)2
Короне

Я не можу сказати, чи є ваші параметри чи оцінки. βi
whuber

Відповіді:


9

Матриця капелюхів ідентична.

(Це лінійно-алгебраїчний спосіб констатувати, що OLS є ортогональною проекцією вектора реакції на простір, що охоплюється змінними.)


Нагадаємо, що за визначенням

R2=ESSTSS

де

ESS=(Y^)Y^

- сума квадратів (по центру) передбачуваних значень і

TSS=YY

- це сума квадратів (в центрі) значень відповіді. Заздалегідь стандартизація до одиничної дисперсії також передбачаєY

TSS=YY=n.

Нагадаємо також, що розрахункові коефіцієнти задаються методом

β^=(XX)XY,

звідки

Y^=Xβ^=X(XX)XY=HY

де є «шапку матриця» здійснення проекції на його найменших квадратів . Він симетричний (що очевидно з самої його форми) та ідентичний . Ось доказ останнього для тих, хто не знайомий з цим результатом. Це просто перемішування дужок навколо:HYY^

HH=HH=(X(XX)X)(X(XX)X)=X(XX)(XX)(XX)X=X(XX)X=H.

Тому

R2=ESSTSS=1n(Y^)Y^=1nYHHY=1nYHY=(1nYX)β^.

Найважливішим кроком у середині послужило ідентифікація матриці капелюхів. Права рука ваша чарівна формула , тому що є (рядок) вектор коефіцієнтів кореляції між і стовпцями .1nYXYX


(+1) Дуже приємне оформлення. Але чому ^{-}замість ^{-1}скрізь?
амеба

1
@amoeba Це узагальнений зворотний зв'язок , розміщений там для обробки випадків, коли може бути єдиним. XX
whuber

4
@amoeba Penrose у своєму оригінальному документі ( «Узагальнена зворотна матриця» , 1954) використав позначення . Мені не подобається ні це, ні позначення тому що їх занадто легко плутати з кон'югатами, транспозицією або кон'югацією транспонувати, тоді як позначення настільки натякає на зворотну сторону, що випадковий читач може піти з думки про це як якщо їм подобається. Ти просто занадто хороший читач - але дякую за те, що помітили. AA+AA1
whuber

1
Цікава і переконлива мотивація, але чи можу я запитати, чи це позначення - це те, що періодично використовується в іншому місці чи це ваш власний винахід?
амеба

5
@amoeba: Так, це позначення з'являється в інших місцях, включаючи класичні тексти Грейбілла про лінійну модель.
кардинал

5

Наступні три формули добре відомі, їх можна знайти в багатьох книгах про лінійну регресію. Вивести їх не важко.

β1=rYX1rYX2rX1X21rX1X22

β2=rYX2rYX1rX1X21rX1X22

R2=rYX12+rYX222rYX1rYX2rX1X21rX1X22

Якщо ви дві бета в рівняння , ви отримаєте вищевказану формулу для R-квадрата.R2=rYX1β1+rYX2β2


Ось геометричне «прозріння». Нижче наведені дві картинки, що показують регресію від та . Цей вид представлення відомий як перемінники як вектори в предметному просторі (будь ласка, прочитайте, про що йдеться). Малюнки малюються після того, як усі три змінні були центрировані, і так (1) довжина кожного вектора = st. відхилення відповідної змінної та (2) кут (її косинус) між кожними двома векторами = кореляція між відповідними змінними.YX1X2

введіть тут опис зображення

Y^ - прогноз регресії (ортогональна проекція на "площину X"); - термін помилки; , множний коефіцієнт кореляції.YecosYY^=|Y^|/|Y|

Ліва картина зображує косі координати з від змінних і . Ми знаємо, що такі координати співвідносяться з коефіцієнтами регресії. А саме, координати: та .Y^X1X2b1|X1|=b1σX1b2|X2|=b2σX2

А на правій картинці показані відповідні перпендикулярні координати . Ми знаємо, що такі координати співвідносять коефіцієнти кореляції нульового порядку (це косинуси ортогональних проекцій). Якщо - кореляція між і і - це співвідношення між і то координата . Аналогічно для іншої координати .r1YX1r1Y^X1r1|Y|=r1σY=r1|Y^|=r1σY^r2|Y|=r2σY=r2|Y^|=r2σY^

Поки це були загальні пояснення лінійного регресійного вектора подання. Тепер переходимо до завдання, щоб показати, як це може призвести до .R2=r1β1+r2β2

Перш за все, нагадайте, що у своєму запитанні @Corone висунута умова, що вираз є істинним, коли всі три змінні стандартизовані , тобто не просто центрировані, а й масштабовані до дисперсії 1. Тоді (тобто маючи на увазі - "робочі частини" векторів), ми маємо координати, рівні: ; ; ; ; а також. Перемалюйте в цих умовах просто "площину X" із зображень, наведених вище:|X1|=|X2|=|Y|=1b1|X1|=β1b2|X2|=β2r1|Y|=r1r2|Y|=r2R=|Y^|/|Y|=|Y^|

введіть тут опис зображення

На малюнку, ми маємо пару перпендикулярних координат і пару косих координат, одного і той же вектор довжину . Існує загальне правило для отримання перпендикулярних координат від косих (або назад): , де - матриця перпендикулярних; - однакова за розмірами матриця косих; і - симетрична матриця кутів (косинусів) між неортогональними осями.Y^RP=SCPpoints X axesSCaxes X axes

X1 і - осі в нашому випадку, при цьому є косинусом між ними. Отже, і .X2r12r1=β1+β2r12r2=β1r12+β2

Замініть ці s, виражені через s у викладі @ Corone , і ви отримаєте, що , - це правда , оскільки саме так виражається діагональ паралелограма (підфарбована на малюнку) через суміжні його сторони (кількість є скалярним твором).rβR2=r1β1+r2β2R2=β12+β22+2β1β2r12 β1β2r12

Це ж стосується будь-якої кількості предикторів X. На жаль, неможливо намалювати однакові картини з багатьма прогнозами.


1
+1 приємно бачити, що він побудований і таким чином, але це не додає стільки розуміння в порівнянні з відповіддю
Ваубера

2
@Corone, я додав деяке "розуміння", яке ви можете зробити.
ttnphns

1
+1 Дійсно здорово (після оновлення). Я подумав, що використання "загального правила" перетворення між координатами є дещо зайвим (і для мене було лише заплутаним); щоб побачити, що, наприклад, потрібно лише запам’ятати визначення косинусу і подивитися на один із правильних трикутників. r1=β1+β2r12
амеба

Дійсно класна редакція, переключення прийнято.
Короне
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.