Вплив перемикання відповіді та пояснювальної змінної в простій лінійній регресії


48

Скажімо, існує деякий "справжній" взаємозв'язок між y і x таким, що y=ax+b+ϵ , де a і b - постійні, а ϵ - нормальний шум. Коли я випадково генерую дані з цього коду R: x <- 1:100; y <- ax + b + rnorm(length(x))а потім підходжу до такої моделі, як y ~ xя, я очевидно отримую досить хороші оцінки для a і b .

(x ~ y)Однак, якщо я перемкнути роль змінних як у , а потім переписати результат, щоб y є функцією x , результат, що нахиляється, завжди крутіший (або більш негативний, або більш позитивний), ніж той, який оцінюється y ~ xрегресією. Я намагаюся зрозуміти, чому саме так, і буду вдячний, якщо хтось міг би дати мені інтуїцію щодо того, що там відбувається.


1
Це взагалі не вірно. Можливо, ви просто бачите це у своїх даних. Вставте цей код: y = rnorm (10); x = rnorm (10); lm (y ~ x); lm (x ~ y); в R кілька разів, і ви знайдете, що йде обома способами.
Макрос

Це трохи відрізняється від того, що я описував. У вашому прикладі y взагалі не була функцією x, тому насправді немає жодного "нахилу" ("a" у моєму прикладі).
Грег Апонт

lm (y ~ x) відповідає моделі y=β0+β1x+ε найменшими квадратами (еквівалентно оцінці ML, коли помилки є нормальними). Є схил.
Макрос

2
На ваше запитання задають відповіді (подібні) на stats.stackexchange.com/questions/13126 та stats.stackexchange.com/questions/18434 . Однак я вважаю, що ще ніхто не сприяв простому, чіткому поясненню зв’язків між (а) регресією Y проти X , (b) регресією X проти Y , (c) аналізом співвідношення X і Y , (d) регресія змінних помилок у змінних X та Y та (e) пристосування біваріантного нормального розподілу до (X,Y) . Це було б добре місце для такої експозиції :-).
whuber

2
Звичайно, Макрос правильний: оскільки x і y грають рівнозначні ролі у питанні, який нахил є більш крайнім - справа випадкова. Однак геометрія підказує (неправильно), що коли ми реверсуємо x і y в регресії, ми повинні отримати зворотний вихідний нахил. Це ніколи не відбувається, крім випадків, коли х і у є лінійно залежними. Це питання можна трактувати як запитання, чому.
whuber

Відповіді:


23

Давши точок даних ( x i , y i ) , i = 1 , 2 , ... n , в площині проведемо пряму y = a x + b . Якщо ми передбачаємо а х я + Ь в якості значення у я з г я , то помилка є ( у я - у я ) = ( уn(xi,yi),i=1,2,ny=ax+baxi+by^iyi , токвадрат помилкиє ( у я - х я - б ) 2 , азагальна квадрат помилки Σ п я = 1 ( у я - х я - б ) 2 . Просимо(yiy^i)=(yiaxib)(yiaxib)2 i=1n(yiaxib)2

Який вибір і b мінімізує S = n i = 1 ( y i - a x i - b ) 2 ?abS=i=1n(yiaxib)2

Оскільки - вертикальна відстань ( x i , y i ) від прямої, ми запитуємо пряму так, щоб сума квадратів вертикальних відстаней точок від лінія якомога менша. Тепер S - квадратична функція і a, і b і досягає свого мінімального значення, коли a і b такі, що S(yiaxib)(xi,yi)Sabab З другого рівняння отримаємо b=1

Sa=2i=1n(yiaxib)(xi)=0Sb=2i=1n(yiaxib)(1)=0
де μy=1
b=1ni=1n(yiaxi)=μyaμx
- середні арифметичні значенняyi's таxi' s відповідно. Підставляючи перше рівняння, отримуємо a=( 1μy=1ni=1nyi, μx=1ni=1nxiyixi Таким чином, пряму, яка мінімізуєS,можна виразити як y=ax+b=μy+((1
a=(1ni=1nxiyi)μxμy(1ni=1nxi2)μx2.
S
y=ax+b=μy+((1ni=1nxiyi)μxμy(1ni=1nxi2)μx2)(xμx),
S
Smin=[(1ni=1nyi2)μy2][(1ni=1nxi2)μx2][(1ni=1nxiyi)μxμy]2(1ni=1nxi2)μx2.

Якщо ми обмінюємося ролями і , проведемо лінію і запитаємо значення і які мінімізують тобто ми хочемо, щоб лінія була такою, що сума квадратів горизонтальних відстаней точок від лінія якомога менша, тоді ми отримуємоу й = у + б а б Т = п Σ я = 1 ( х я - у я - б ) 2 ,xyx=a^y+b^a^b^

T=i=1n(xia^yib^)2,

TTmin=[(1

x=a^y+b^=μx+((1ni=1nxiyi)μxμy(1ni=1nyi2)μy2)(yμy)
і мінімальне значення - T
Tmin=[(1ni=1nyi2)μy2][(1ni=1nxi2)μx2][(1ni=1nxiyi)μxμy]2(1ni=1nyi2)μy2.

Зауважте, що обидві лінії проходять через точку але схили в цілому різні. Дійсно, як в коментарі вказує @whuber, нахили однакові, коли всі точки лежать на одній прямій. Щоб побачити це, зауважте, що (μx,μy)

a=(1ni=1nxiyi)μxμy(1ni=1nxi2)μx2,  a^1=(1ni=1nyi2)μy2(1ni=1nxiyi)μxμy
(xi,yi)
a^1a=Smin(1ni=1nxiyi)μxμy=0Smin=0yi=axi+b,i=1,2,,n.

Дякую! abs (кореляція) <1 пояснює, чому схил був систематично крутішим у зворотному випадку.
Грег Апонт

(+1), але я доповнив відповідь просто ілюстрацією того, що ви щойно сказали, як я маю геометричний розум :)
Елвіс

Відповідь класу (+1)
Digio

39

Просто для ілюстрації відповіді Діліпа: на наступних малюнках

  • чорні точки - це точки даних;
  • ліворуч чорна лінія - це лінія регресії, отримана y ~ x, що мінімізує квадрати довжини червоних відрізків;
  • праворуч чорна лінія - це лінія регресії, отримана шляхом x ~ y, яка мінімізує квадрати довжини червоних відрізків.

регресійні лінії

Редагувати (найменший регрес прямокутників)

Якщо немає природного способу вибору "відповіді" та "коваріату", але, скоріше, дві змінні взаємозалежні, ви можете захотіти зберегти симетричну роль для та ; в цьому випадку ви можете використовувати «найменшу регресію прямокутників».yx

  • запишіть , як зазвичай;Y=aX+b+ϵ
  • позначаємо і оцінки умовні до і умовні ;y^i=axi+bx^i=1a(yib)YiX=xiXiY=yi
  • мінімізувати, що призводить до i|xix^i||yiy^i|
    y^=sign(cov(x,y))σ^yσ^x(xx¯)+y¯.

Ось ілюстрація з однаковими точками даних, для кожної точки "прямокутник" обчислюється як добуток довжини двох червоних відрізків, а сума прямокутників зводиться до мінімуму. Я не знаю багато про властивості цієї регресії і не знаходжу багато з Google.

найменше прямокутників


14
Деякі зауваження: ( 1 ) Якщо я не помиляюся, здається, що "найменша регресія прямокутників" еквівалентна рішенню, отриманому після взяття першого основного компонента на матрицю після центрування і масштабування, щоб мати дисперсію одиниці, а потім зворотне заміщення. (продовження)X=(y,x)
кардинал

14
(продовження) ( 2 ) Подивившись таким чином, легко помітити, що ця "найменша регресія прямокутників" еквівалентна формі ортогональних (або загальних) найменших квадратів і, таким чином, ( 3 ) Особливий випадок регресії Демінга на центральні, масштабовані вектори, що приймають . Ортогональні найменші квадрати можуть розглядатися як "регресія найменших кіл". δ=1
кардинал

2
@cardinal Дуже цікаві коментарі! (+1) Я вважаю, що основна вісь (мінімізація перпендикулярних відстаней між лінією регулювання та всіма точками, à la PCA) або зменшена регресія основної осі , або регресія типу II, як показано в пакеті lmodel2 R P Legendre, також мають значення тут оскільки ці методи використовуються, коли важко сказати, яку роль (відповідь чи прогноктор) відіграє кожна змінна або коли ми хочемо враховувати помилки вимірювань.
chl

1
@chl: (+1) Так, я вважаю, ти маєш рацію, і на сторінці Вікіпедії на загальних найменших квадратах вказано кілька інших назв за тією ж процедурою, не всі з яких я знайомий. Здається, вона повертається щонайменше до Р. Фріша, Аналіз статистичного злиття за допомогою повних систем регресії , Universitetts Økonomiske Instituut, 1934 р., Де його називали діагональною регресією .
кардинал

3
@cardinal Я повинен був бути більш обережним, читаючи запис у Вікіпедії ... Для подальшого ознайомлення ось фотографії, зроблені з біостатистичного проектування та аналізу за допомогою R , від М. Логан (Wiley, 2010; рис. 8.4, стор. 174) , який узагальнює різні підходи, подібно до приємних ілюстрацій Елвіса.
chl

13

Лише коротка примітка про те, чому ви бачите нахил менший за одну регресію. Обидва нахили залежать від трьох чисел: стандартних відхилень і ( і ), а також кореляції між і ( ). Регресія з як відповідь має нахил а регресія з як відповідь має нахил , отже відношення першого нахилу до зворотного другого дорівнює .xysxsyxyryrsysxxrsxsyr21

Отже, чим більша частка дисперсії пояснюється, тим ближче нахили, отримані від кожного випадку. Зауважимо, що пояснювана частка дисперсії симетрична і дорівнює кореляції у квадраті у простої лінійної регресії.


1

Простий спосіб поглянути на це - зазначити, що якщо для справжньої моделі , ви запускаєте дві регресії:y=α+βx+ϵ

  • y=ayx+byxx
  • x=axy+bxyy

Тоді ми маємо, використовуючи :byx=cov(x,y)var(x)=cov(x,y)var(y)var(y)var(x)

byx=bxyvar(y)var(x)

Тож чи ви отримаєте більш крутий нахил чи не просто залежить від співвідношення . Це співвідношення дорівнює, виходячи з передбачуваної справжньої моделі:var(y)var(x)

var(y)var(x)=β2var(x)+var(ϵ)var(x)

Посилання з іншими відповідями

Ви можете пов'язати цей результат з відповідями інших, хто сказав, що коли , це має бути зворотним. Дійсно, , а також, (помилка оцінки), отже:R2=1R2=1var(ϵ)=0byx=β

R2=1byx=bxyβ2var(x)+0var(x)=bxyβ2

Отже,bxy=1/β


0

Це стає цікавим, коли на ваших входах також є шум (про що ми можемо стверджувати, що це завжди так, що жодна команда чи спостереження не є ідеальними).

Я побудував кілька моделювання для спостереження за явищем, заснованим на простому лінійному співвідношенні , з гауссовим шумом як на x, так і на y. Я створив спостереження наступним чином (код python):x=y

x = np.linspace(0, 1, n)
y = x

x_o = x + np.random.normal(0, 0.2, n)
y_o = y + np.random.normal(0, 0.2, n)

Дивіться різні результати (odr тут - ортогональна регресія відстані, тобто така ж, як найменша регресія прямокутників):

введіть тут опис зображення

Весь код є тут:

https://gist.github.com/jclevesque/5273ad9077d9ea93994f6d96c20b0ddd


0

Лінія регресії не є (завжди) такою самою, як справжня залежність

Можливо, у вас є якісь «справжні» причинно-наслідкові зв’язки

y=a+bx+ϵ

але пристосовані регресійні лінії y ~ xабо x ~ yне означають те саме, що причинно-наслідкові зв'язки (навіть коли на практиці вираз для однієї з регресійних ліній може збігатися з виразом для причинно-наслідкового зв’язку)


Більш точне співвідношення між схилами

Для двох переключених простих лінійних регресій:

Y=a1+b1XX=a2+b2Y

Ви можете пов'язати схили так:

b1=ρ21b21b2

Тож схили не один до одного зворотні.


Інтуїція

Причина в тому

  • Регресійні лінії та кореляції не обов'язково відповідають одній на одну причинно-наслідковій залежності.
  • Лінії регресії більше стосуються умовної ймовірності або найкращого прогнозу.

Можна уявити, що умовна ймовірність стосується сили відносин. Лінії регресії відображають це, і нахили ліній можуть бути як дрібними, коли сила відносин невелика, так і обидва круті, коли міцність відносин сильна. Схили не просто один до одного зворотні.

Приклад

Якщо дві змінних і пов'язані один з одним якийсь - або (причинного) лінійної залежністю Тоді ви можете собі уявити , що було б НЕ добре , щоб повністю змінити цей зв'язок в разі , якщо ви хочете , щоб висловити на основі заданого значення .XY

Y=a little bit of X+ a lot of error
XY

Замість

X=a lot of Y+ a little of error

краще було б також використовувати

X=a little bit of Y+ a lot of error

Дивіться наступний приклад розподілів з відповідними регресійними лініями. Розподіли є багатоваріантними нормальними з іΣ11Σ22=1Σ12=Σ21=ρ

приклад

Умовні очікувані значення (те, що ви отримаєте в лінійній регресії) є

E(Y|X)=ρXE(X|Y)=ρY

і в цьому випадку при багатоваріантний нормальний розподіл, тоді граничні розподіли єX,Y

YN(ρX,1ρ2)XN(ρY,1ρ2)

Таким чином, ви можете бачити змінну Y як частину та шум частини з відхиленням . Так само і навпаки.ρX1ρ2

Чим більший коефіцієнт кореляції , тим ближче будуть два рядки. Але чим нижча кореляція, тим менш міцні стосунки, тим менш крутими будуть лінії (це справедливо і для обох ліній, і для )ρY ~ XX ~ Y


0

Коротка відповідь

Мета простої лінійної регресії - придумати найкращі прогнози yзмінної з урахуванням значень xзмінної. Це інша мета, ніж намагатися придумати найкращий прогноз xзмінної з урахуванням значень yзмінної.

Проста лінійна регресія y ~ xдає «кращу» можливу модель для прогнозування yдано x. Отже, якщо ви підходите до моделі x ~ yі алгебраїчно її перевертаєте, ця модель в найкращому випадку може зробити так само добре, як і модель y ~ x. Але інвертування підходящої моделі x ~ yзазвичай буде гірше при прогнозуванні yзаданого xпорівняно з «оптимальною» y ~ xмоделлю, оскільки «перевернута x ~ yмодель» була створена для досягнення іншої мети.

Ілюстрація

Уявіть, у вас є такий набір даних:

введіть тут опис зображення

Коли ви запускаєте регресію OLS y ~ x, ви придумали таку модель

y = 0.167 + 1.5*x

Це оптимізує прогнози y, роблячи такі передбачення, які пов’язані з помилками:

введіть тут опис зображення

Прогнози регресії OLS є оптимальними в тому сенсі, що сума значень у правому правому стовпчику (тобто сума квадратів) є якомога меншою.

Запускаючи регресію OLS x ~ y, ви створюєте іншу модель:

x = -0.07 + 0.64*y

Це оптимізує прогнози x, роблячи наступні прогнози із пов'язаними помилками.

введіть тут опис зображення

Знову ж таки, це оптимально в тому сенсі, що сума значень крайнього правого стовпчика є якомога меншою (дорівнює 0.071).

А тепер уявіть, що ви намагалися просто перевернути першу модель y = 0.167 + 1.5*x, використовуючи алгебру, даючи вам модель x = -0.11 + 0.67*x.

Це дасть вам наступні прогнози та пов’язані з цим помилки:

введіть тут опис зображення

Сума значень у крайньому правому стовпчику - 0.074це більша, ніж відповідна сума з моделі, яку ви отримуєте від регресування x на y, тобто x ~ yмоделі. Іншими словами, "перевернута y ~ xмодель" виконує гіршу роботу при прогнозуванні x, ніж модель OLS x ~ y.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.