У чому полягає принципова відмінність цих двох регресійних моделей?


10

Припустимо, у мене є біваріантні відповіді зі значною кореляцією. Я намагаюся порівняти два способи моделювання цих результатів. Один із способів полягає в моделюванні різниці між двома результатами: Іншим способом є використання або моделювання їх:

(yi2yi1=β0+Xβ)
glsgee
(yij=β0+time+Xβ)

Ось foo приклад:

#create foo data frame

require(mvtnorm)
require(reshape)
set.seed(123456)
sigma <- matrix(c(4,2,2,3), ncol=2)
y <- rmvnorm(n=500, mean=c(1,2), sigma=sigma)
cor(y)
x1<-rnorm(500)
x2<-rbinom(500,1,0.4)
df.wide<-data.frame(id=seq(1,500,1),y1=y[,1],y2=y[,2],x1,x2)
df.long<-reshape(df.wide,idvar="id",varying=list(2:3),v.names="y",direction="long")
df.long<-df.long[order(df.long$id),]
    df.wide$diff_y<-df.wide$y2-df.wide$y1


#regressions
fit1<-lm(diff_y~x1+x2,data=df.wide)
fit2<-lm(y~time+x1+x2,data=df.long)
fit3<-gls(y~time+x1+x2,data=df.long, correlation = corAR1(form = ~ 1 | time))

У чому полягає принципова різниця між fit1і fit2? А між fit2і fit3, враховуючи, що вони так близькі за значеннями та оцінками?p


7
Різниця між fit1 і fit3 іноді називають парадоксом Господа. Ознайомтесь тут із деякою дискусією (про те, чому оцінки не змінюються між моделями) та посиланням на статтю Пола Елісона, stats.stackexchange.com/a/15759/1036 . Ще одна довідкаHolland, Paul & Donald Rubin. 1983. On Lord’s Paradox. In Principles of modern psychological measurement: A festchrift for Frederic M. Lord edited by Wainer, Howard & Samuel Messick pgs:3-25. Lawrence Erlbaum Associates. Hillsdale, NJ.
Енді Ш

Відповіді:


1

По-перше, я введу ще четверту модель дискусії у своїй відповіді:

fit1.5 <- lm (y_2 ~ x_1 + x_2 + y_1)

Частина 0
Різниця між fit1 та fit1.5 найкраще підсумовується як різниця між обмеженою різницею та оптимальною різницею.

Я буду використовувати більш простий приклад, щоб пояснити це, ніж той, що надано вище. Почнемо з fit1.5. Більш простою версією моделі буде Звичайно, коли ми отримаємо оцінку OLS, вона знайде «оптимальний» вибір для . І хоча, як видається дивним, писати як таке, ми могли б переписати формулу як Ми можемо вважати це як "оптимальну" різницю між двома змінними .

y2=b0+b1·x+b2·y1
b2
y2b2·y1=b0+b1·x
y

Тепер, якщо ми вирішимо обмежити , то формула / модель стає що є лише (обмеженою) різницею.b2=1

y2y1=b0+b1·x

Зауважте, що у наведеній вище демонстрації, якщо ви дозволяєте бути дихотомічною змінною, а - попереднім тестом, а після спарювання балів після тестування, то модель обмеженої різниці буде просто незалежними зразками test для виграшу в балах , тоді як оптимальною різницевою моделлю буде тест ANCOVA з показниками попереднього тесту, використовуваним як коваріати.xy1y2t

Частина 1
Модель fit2 найкраще можна розглядати аналогічно різниці, що застосовується вище. Хоча це і є надмірне спрощення (оскільки я цілеспрямовано виключаю умови помилки), модель може бути представлена ​​як де для значень і для значень . Ось надмірне спрощення ... це давайте напишемо Написано іншим способом, . Тоді як модель fit1.5 мала значення для досягнення оптимальної різниці для аналізу OLS, тут

y=b0+b1·x+b2·t
t=0y1t=1y2
y1=b0+b1·xy2=b0+b1·x+b2
y2y1=b2b2b2по суті є лише середньою різницею між значеннями (після контролю для інших коваріатів).y

Частина 2
Отже, яка різниця між моделями fit2 та fit3 ... насправді, дуже мало. Модель fit3 враховує кореляцію в термінах помилок, але це лише змінює процес оцінки, і, таким чином, відмінності між двома результатами моделі будуть мінімальними (крім того, що fit3 оцінює коефіцієнт авторегресії).

Частина 2.5
І я включу ще одну модель в цю дискусію

fit4 <- lmer (y ~ час + x1 + x2 + (1 | id), дані = df.long)

Ця модель із змішаними ефектами робить дещо іншу версію автоматичного підходу. Якби ми включали коефіцієнт часу у випадкові ефекти, це було б порівняно з обчисленням різниці між s для кожного суб'єкта. (Але це не спрацює ... і модель не запуститься.)y

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.