Яка різниця між лінійною регресією на y з x і x з y?


97

Коефіцієнт кореляції Пірсона x і y є однаковим, незалежно від того, чи обчислюєте ви грушу (x, y) або pearson (y, x). Це говорить про те, що робити лінійну регресію y, заданої x або x, заданої y, слід однаково, але я не думаю, що це так.

Чи може хтось пролити світло, коли відносини не симетричні, і як це стосується коефіцієнта кореляції Пірсона (який я завжди думаю як підсумок найкращої лінії підходу)?


1
Кожна кореляційна матриця буде симетричною, оскільки . Я закликаю вас розробити математику, щоб побачити, що це дійсно так. Якщо ви знаєте, що зв'язок між і (або якими б не були цікаві змінні) не є апріорі симетричним , вам може бути корисно звернутися до інших методів аналізу. cov(x,y)=cov(y,x)xy
Phillip Cloud

14
Цікаві моменти були зроблені щодо пов'язаного питання, Вплив перемикання відповіді та пояснювальної змінної в простій лінійній регресії .
chl

Відповіді:


159

Найкращий спосіб подумати над цим - уявити розкид точок з на вертикальній осі та зображених горизонтальною віссю. Враховуючи цю рамку, ви бачите хмару точок, яка може бути невиразно круглою, або може бути витягнутою в еліпс. Те, що ви намагаєтесь зробити в регресії, - це знайти те, що можна назвати «лінією найкращого підходу». Однак, хоча це виглядає прямолінійно, нам потрібно розібратися, що ми маємо на увазі під «найкращим», а це означає, що ми повинні визначити, що було б, щоб лінія була хорошою, або щоб одна лінія була кращою за іншу тощо. Конкретно , ми повинні передбачити функцію втратхyx. Функція втрат дає нам змогу сказати, наскільки щось погано, і таким чином, коли ми мінімізуємо це, ми робимо нашу лінію максимально «хорошою» або знаходимо «найкращу» лінію.

Традиційно, коли ми проводимо регресійний аналіз, ми знаходимо оцінки схилу та перехоплення так, щоб мінімізувати суму помилок у квадраті . Вони визначаються наступним чином:

SSE=i=1N(yi(β^0+β^1xi))2

З точки зору нашого розсіювання, це означає, що ми мінімізуємо (суму квадратичних) вертикальних відстаней між спостережуваними точками даних та лінією.

введіть тут опис зображення

З іншого боку, цілком розумно повернути на , але в цьому випадку ми поставимо на вертикальну вісь тощо. Якби ми зберегли свою ділянку такою, якою є (з на горизонтальній осі), регресування на (знову ж таки, використовуючи трохи адаптований варіант вищевказаного рівняння з переключеними і ) означає, що ми мінімізували б суму горизонтальних відстанейy x x x y x yxyxxxyxyміж спостережуваними точками даних та лінією. Це звучить дуже схоже, але не зовсім те саме. (Спосіб розпізнати це - зробити це обома способами, а потім алгебраїчно перетворити один набір оцінок параметрів у умови іншої. Порівнюючи першу модель з переставленою версією другої моделі, стає легко зрозуміти, що вони не те ж саме.)

введіть тут опис зображення

Зауважте, що жоден спосіб не створив би ту саму лінію, яку ми інтуїтивно намалювали, якби хтось вручив нам аркуш паперу з графіком із накресленими на ньому точками. У цьому випадку ми проведемо лінію прямо через центр, але мінімізуючи вертикальну відстань, вийде лінія, яка є трохи більш плоскою (тобто з меншим нахилом), тоді як мінімізація горизонтальної відстані дає лінію, яка трохи крутіша .

Кореляція симетрична; само співвідноситься з як - з . Однак співвідношення продукту-моменту Пірсона можна зрозуміти в контексті регресії. Коефіцієнт кореляції, - це нахил лінії регресії, коли обидві змінні вперше стандартизовані . Тобто ви спочатку віднімали середнє значення від кожного спостереження, а потім ділили різниці на стандартне відхилення. Хмара точок даних тепер буде орієнтована на початок, і нахил буде таким самим, чи ви регресували на , або наy y x r y x x yxyyxryxxy (але зверніть увагу на коментар @DilipSarwate нижче).

введіть тут опис зображення

Тепер, чому це має значення? Використовуючи нашу традиційну функцію втрат, ми говоримо, що вся помилка є лише в одній із змінних (а саме, ). Тобто, ми говоримо, що вимірюється без помилок і являє собою набір значень, які нас цікавлять, але має помилку вибіркиx yyxy. Це дуже відрізняється від твердження зворотного. Це було важливо в цікавому історичному епізоді: наприкінці 70-х - початку 80-х років у США було зроблено випадок дискримінації жінок на робочому місці, і це було підкріплено регресійними аналізами, які показують, що жінки мають рівний досвід (наприклад, , кваліфікація, досвід тощо) платили в середньому менше, ніж чоловіки. Критики (або просто люди, які були надзвичайно ретельними) міркували, що якщо це правда, жінкам, які платять однаково з чоловіками, доведеться бути більш висококваліфікованими, але коли це було перевірено, було встановлено, що хоча результати були "значущими", коли Оцінивши один спосіб, вони не були «значущими», коли перевіряли інший шлях, який кидав усіх причетних до запаморочення. Дивіться тут за відомий документ, який намагався усунути проблему.


(Оновлено набагато пізніше) Ось ще один спосіб подумати над цим, який підходить до теми через формули, а не візуально:

Формула нахилу простої лінії регресії є наслідком прийнятої функції втрат. Якщо ви використовуєте стандартну функцію втрати звичайних найменших квадратів (зазначено вище), ви можете отримати формулу для нахилу, яку ви бачите в кожному підручнику із вступу. Ця формула може бути представлена ​​в різних формах; одну з яких я називаю «інтуїтивно зрозумілою» формулою для схилу. Розгляньте цю форму як для ситуації, коли ви регресуєте на , так і коли ви регресуєте на : yxxy

β^1=Cov(x,y)Var(x)y on x                              β^1=Cov(y,x)Var(y)x on y
Тепер я сподіваюся, що очевидно, що вони не були б однаковими, якщо дорівнює . Якщо відхилення є однаковими (наприклад, тому що ви стандартизовані змінними першим), то так і стандартними відхилення, і , таким чином дисперсії були б обидва також дорівнює . У цьому випадку дорівнюватиме Пірсона , що в будь-якому випадку є принципом комутативності : Var(x)Var(y)SD(x)SD(y)β^1r
r=Cov(x,y)SD(x)SD(y)correlating x with y                           r=Cov(y,x)SD(y)SD(x)correlating y with x

2
+1 для згадування мінімізації функції втрат. Альтернативи вертикальним або горизонтальним відстаням включають використання перпендикулярної відстані до прямої або площі прямокутника, в якій кожна виробляє різні лінії регресії.
Генрі

7
Я не думаю, що твердження "нахил був би однаковим, чи ви регресували на , або на ". є правильним, якщо умовою є побудувати на горизонтальній осі та на вертикальній осі. У цьому випадку укоси є взаємними один одного. Якщо ми дотримуємось конвенції незалежної змінної на горизонтальній осі та залежної змінної по вертикальній осі, то так, нахил є однаковим і в будь-якому випадку. Але при цій умові пояснення вертикальних відстаней проти горизонтальних відстаней не застосовується; це завжди вертикальна відстань точок від прямої. x x y x yyxxyxy
Діліп Сарват

4
@DilipSarwate, те, що ти кажеш, правдиве. Моя точка використовуючи терміни «вертикальний» і «горизонтальний», щоб зробити візуально видиму ідею про те , що помилка розуміється як помилки вибірки вy , або помилки вибірки в . Якщо ми побудуємо на вертикальній осі та повернемо на , то мінімізовані відстані будуть вертикальними, але мінімізована помилка все одно буде помилкою вибірки в . Можливо, моя відповідь недостатньо чітка; Я можу його відредагувати, якщо зможу придумати кращий спосіб. x x x y xxxxyx
gung

1
Чи можете ви сказати, що у випадку кореляції ортогональна відстань між точками та прямою мінімізується? (Я маю на увазі лінію, що йде від точки до лінії "регресії" і стоїть ортогонально на ній).
фондж

1
Кореляція Пірсона не зовсім відповідає лінії, @vonjd. Виявляється, що він еквівалентний нахилу встановленої лінії найменшого квадрата, коли дані були вперше стандартизовані. Перший головний компонент, коли є лише дві змінні, і дані були стандартизовані спочатку, є свого роду пристосованою лінією, яка мінімізує ортогональні відстані. HTH
gung

12

Я збираюся проілюструвати відповідь деяким Rкодом та результатом.

Спочатку ми побудуємо випадковий нормальний розподіл yіз середнім значенням 5 та SD 1:

y <- rnorm(1000, mean=5, sd=1)

Далі я цілеспрямовано створюю другий випадковий нормальний розподіл x, який становить просто 5x значення yдля кожного y:

x <- y*5

За дизайном ми маємо ідеальну кореляцію xта y:

cor(x,y)
[1] 1
cor(y,x)
[1] 1

Однак, коли ми робимо регресію, ми шукаємо функцію, яка пов'язана, xі yтому результати коефіцієнтів регресії залежать від того, яку ми використовуємо як залежну змінну, а яку ми використовуємо як незалежну змінну. У цьому випадку нам не підходить перехоплення, оскільки ми зробили xфункцію yбез випадкових змін:

lm(y~x-1)
Call:
lm(formula = y ~ x - 1)

Coefficients:
  x  
0.2

lm(x ~ y-1)
Call:
lm(formula = x ~ y - 1)

Coefficients:
y  
5  

Тож регресії говорять нам про те y=0.2xі те x=5y, що, звичайно, рівнозначно. Коефіцієнт кореляції просто показує нам, що існує точна відповідність рівнів зміни одиниць між xі y, так що (наприклад) збільшення на 1 одиницю yзавжди призводить до збільшення на 0,2 одиниці x.


6

Зрозуміло, що оскільки кореляція Пірсона однакова, чи ми робимо регресію x проти y, або y проти x є хорошою, ми повинні отримувати однакову лінійну регресію, є хорошою. Це лише трохи неправильно, і ми можемо використовувати його, щоб зрозуміти, що відбувається насправді.

Це рівняння для прямої, яку ми намагаємося отримати від регресії

введіть тут опис зображення

Рівняння для нахилу цієї лінії визначається кореляцією Пірсона

введіть тут опис зображення

Це рівняння кореляції Пірсона. Це те саме, чи ми регресуємо x проти y або y проти x

введіть тут опис зображення

Однак коли ми озираємося на наше друге рівняння для нахилу, ми бачимо, що кореляція Пірсона - не єдиний член у цьому рівнянні. Якщо ми обчислюємо y проти x, ми також маємо вибіркове стандартне відхилення y, поділене на вибіркове стандартне відхилення x. Якби ми обчислили регресію x проти y, нам потрібно було б перевернути ці два доданки.


4

У таких питаннях легко зациклюватися на технічних питаннях, тому я хотів би зосередитись саме на питанні в заголовку теми, яка задає питання: Яка різниця між лінійною регресією y з x та x з y ?

wages=b0+b1 years of education+error

years of education=b0+b1 wages+error

Я впевнений, що ви можете придумати більше подібних прикладів (поза сферою економіки), але, як бачите, інтерпретація моделі може змінитися досить суттєво, коли ми переходимо з регресування y на x до x на y.

Отже, до відповіді на запитання: Яка різниця між лінійною регресією на y з x та x з y? , можна сказати, що інтерпретація рівняння регресії змінюється, коли ми регресуємо x на y замість y на x. Ми не повинні нехтувати цим питанням, тому що модель, яка має звукову інтерпретацію, може швидко перетворитися на ту, яка має мало або зовсім не має сенсу.


3

На цю тему є дуже цікаве явище. Після обміну x і y хоча коефіцієнт регресії змінюється, але t-статистика / F-статистика та рівень значущості для коефіцієнта не змінюються. Це справедливо навіть у множинній регресії, де ми обмінюємось y з однією з незалежних змінних.

Це пов'язано з делікатним співвідношенням між коефіцієнтом F-статистики та (частковим) коефіцієнтом кореляції. Це співвідношення дійсно торкається ядра теорії лінійної моделі. Більш детально про цей висновок є в моєму зошиті: Чому обмін y і x не впливає на p


Такий потік може виявитись цікавим / заплутаним: Поміщення X і Y в регресії, що містить передбачувач групування .
gung

2
Стаття "Чому обмін y і x не впливає на p", тут вже немає. Ви додасте його назад?
JetLag

1

Розширення на відмінну відповідь @ gung:

ryxxy

β^1yonxβ^1xony=Cov(x,y)Var(x)Cov(y,x)Var(y)=|Cov(x,y)|SD(x)SD(y)=|r|
r
r=sign(β^1yonx)β^1yonxβ^1xony
r=sign(β^1xony)β^1yonxβ^1xony

r

|12(β^1yonx+β^1xony)|β^1yonxβ^1xony=|r|


1

 Doing regression of y given x

minbE(YbX)2

тоді як для : , яку можна переписати як:doing regression of x given y

minbE(XbY)2

minb1b2E(YbX)2

Важливо також зазначити, що дві різні на вигляд проблеми можуть мати однакове рішення.


1
Хоча це правильно - і дякую за ці спостереження - ви залишаєте своїх читачів висішими: чи могли б ви пояснити, чому рішення цих двох різних шукаючих проблем обов'язково різні?
whuber

1
Ви праві. Насправді я подумав про це, але не зміг знайти простий (і менш математичний) спосіб пояснити, чому два рішення обов'язково різні, тому я намагався зробити ці дві проблеми максимально схожими. Тут я просто намагаюся надати іншу точку зору. look
SiXUlm

як останній рядок еквівалентний середній лінії? Якщо ви помножите на 1 / b ^ 2, ви отримаєте E (X - Y / b) ^ 2 не E (X - Yb) ^ 2
Остін Шін

@AustinShin насправді я тут трохи обдурив. У середньому рядку я виймаю , потім змінюю змінну: , яка потім дає мені останній рядок. b : = 1 / bbb:=1/b
SiXUlm

+1: Ви вже чітко зробили свою думку!
whuber

0

Що ж, це правда, що для простої двовимірної регресії коефіцієнт лінійної кореляції та R-квадрат будуть однаковими для обох рівнянь. Але схили будуть r Sy / Sx або r Sx / Sy, які не є взаємними один одного, якщо тільки r = 1.


1
"... або " ... Або бути більш лаконічним, "... якщо "r 2 = 11r2=1
Glen_b

-7

Основною ідеєю регресії може бути "причина і наслідок" або "незалежна і залежна". Нормальна практика розміщення незалежної змінної по осі X і залежної змінної по осі Y представлена ​​Y = mX + c. Чи слід нахил називати m (X на Y) або (Y на X), а регресію як: (X на Y) або (Y на X). Він обробляється обома способами, що не є добре і потребує уточнення. Модельєри часто використовують розсипчасті сюжети, щоб оцінити відповідність модельованої серії спостерігається серії; а використання регресійної лінії неминуче. тут немає причинного застереження. Виходячи з цієї необхідності, стоїть німе питання, поставлене ниткою. Або просто кажучи, поясніть, будь ласка, як викликати звичайний регресійний аналіз: X на Y; або Y на X?, виходячи за причину відповіді. Це не відповідь на основну нитку; але паралельне питання.


6
-1 Окрім того, що є некогерентною, ця відповідь опускає ключову ідею, так обґрунтовано пояснену в найкращій відповіді: імовірнісна модель зміни даних диктує, чи є регресія значущою, і визначає, яку змінну можна вважати залежною змінною.
whuber

Цей респондент, можливо, ще раз повторив одне тлумачення визнаного дещо незрозумілого питання з назви, що стосується звичного маркування. Що стосується проблеми форми y = mx + b, чи типово описує співвідношення як "y регресує на x" (так) або як "x регресує на y" (ні)? На питання про термінологію відповідають на stats.stackexchange.com/questions/207425/… .
InColorado
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.