Чи має значення змінний порядок у лінійній регресії


9

Я досліджую взаємодію між двома змінними (х1 і х2). Між цими змінними існує велика лінійна кореляціяr>0,9. Із природи проблеми я нічого не можу сказати про причинно-наслідкову ситуацію (чи є)х1 причини х2або навпаки). Мені хотілося б вивчити відхилення від лінії регресії, щоб виявити людей, що переживають людину. Для цього я можу побудувати лінійну регресіюх1 як функція х2або навпаки. Чи може мій вибір змінного порядку впливати на мої результати?


У пошуку шукачів, спочатку слід регресувати залежну змінну проти обох х1 і х2і шукайте аутлієрів.
schenectady

Чи виявлення людей, що не впадають у життя, є метою вашого розслідування? Якщо так, то спочатку слід регресувати залежну змінну проти обохх1 і х2а потім виконувати тести для зовнішніх робіт. Якщо ви виявите можливу причинно-наслідкову ситуацію, вам слід розглянути можливість розробленого експерименту. Якщо мета вашого експерименту - знайти взаємозв'язок між вашими двома незалежними змінними, перегляд випадковості зібраних даних не зробить хитрощів.
Схенектаді

Мені не зрозуміло, що ви маєте на увазі під чужими людьми. Якщо у ваших даних є інші люди, вони вплинуть на обчислення лінії регресії. Чому ти шукаєш людей, що вижили в обохх1 і х2одночасно?
DQdlM

@schenectady Використовуйте, будь ласка, $$ для LaTeX у коментарях.

Відповіді:


3

Це, безумовно, може (насправді, це навіть має значення щодо припущень щодо ваших даних - ви робите лише припущення щодо розподілу результату за даними коваріату). У цьому світлі ви можете знайти такий термін, як "зворотна дисперсія прогнозу". Так чи інакше, лінійна регресія нічого не говорить про причину! У кращому випадку ви можете сказати щось про причинно-наслідкові зв’язки завдяки ретельному проектуванню.


3

Щоб зробити випадок симетричним, можна регресувати різницю між двома змінними (Δх) проти їх середнього значення.


3

Стандартна регресія мінімізує вертикальну відстань між точками та лінією, тому перемикання двох змінних тепер мінімізує горизонтальну відстань (з огляду на ту саму розсіювач). Інший варіант (який має кілька назв) - мінімізувати перпендикулярну відстань, це можна зробити за допомогою принципових компонентів.

Ось декілька код R, який показує відмінності:

library(MASS)

tmp <- mvrnorm(100, c(0,0), rbind( c(1,.9),c(.9,1)) )

plot(tmp, asp=1)

fit1 <- lm(tmp[,1] ~ tmp[,2])  # horizontal residuals
segments( tmp[,1], tmp[,2], fitted(fit1),tmp[,2], col='blue' )
o <- order(tmp[,2])
lines( fitted(fit1)[o], tmp[o,2], col='blue' )

fit2 <- lm(tmp[,2] ~ tmp[,1])  # vertical residuals
segments( tmp[,1], tmp[,2], tmp[,1], fitted(fit2), col='green' )
o <- order(tmp[,1])
lines( tmp[o,1], fitted(fit2)[o], col='green' )

fit3 <- prcomp(tmp)
b <- -fit3$rotation[1,2]/fit3$rotation[2,2]
a <- fit3$center[2] - b*fit3$center[1]
abline(a,b, col='red')
segments(tmp[,1], tmp[,2], tmp[,1]-fit3$x[,2]*fit3$rotation[1,2], tmp[,2]-fit3$x[,2]*fit3$rotation[2,2], col='red')

legend('bottomright', legend=c('Horizontal','Vertical','Perpendicular'), lty=1, col=c('blue','green','red'))

Щоб шукати інших людей, ви можете просто побудувати результати аналізу основних компонентів.

Ви також можете подивитися:

Bland and Altman (1986), Статистичні методи оцінки згоди між двома методами клінічного вимірювання. Ланцет, с. 307-310


0

Ваші змінні x1 та x2 є колінеарними. За наявності мультиколінеарності ваші оцінки параметрів все ще є неупередженими, але їх відмінність велика, тобто ваш висновок про значення оцінок параметрів недійсний, і ваш прогноз матиме великі інтервали довіри.

Інтерпретація оцінок параметрів також є важкою. У лінійній регресійній структурі оцінка параметра на x1 - це зміна Y для одиничної зміни в x1, що дається для кожної іншої зовнішньої змінної в моделі. У вашому випадку, x1 і x2 сильно корелюються, і ви не можете утримувати x2 постійними, коли x1 змінюється.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.