Яка різниця між GLM та GEE?


9

Чим відрізняється модель GLM (логістична регресія) від бінарної змінної відповіді, що включає предмет і час у вигляді коваріатів, і аналогічну модель GEE, яка враховує кореляцію між вимірюваннями в декількох часових точках?

Мій GLM виглядає так:

Y(binary) ~ A + B1X1(subject id) + B2X2(time) 
              + B3X3(interesting continuous covariate)

з функцією посилання logit.

Я шукаю просте (спрямоване на соціального вченого) пояснення того, як і чому час по-різному трактується в двох моделях та які наслідки мали б для тлумачення.


6
Я знайшов ці відповіді на питання , пов'язані ( В чому різниця між узагальненими оцінюють рівняннями і GLM - моделлю? , Коли використовувати узагальнені рівняння , що оцінюють vs. моделі змішаних ефектів? ) Дуже всеосяжними, хоча вони про GLM з випадковими ефектами проти ГЕЕ.
chl

1
Ви дійсно хочете, щоб ідентифікатор теми підходив до суцільного коваріату? Мабуть, дивним є те, що змінна відповіді буде функцією зростаючої чи зменшувальної ідентифікатора.
гість

Усереднені популяційні ефекти та специфічні для суб'єкта ефекти.
Вілл

ось посилання на статтю, яка обговорює відмінності між ними. aje.oxfordjournals.org/content/147/7/694.full.pdf+html
Will

1
На додаток до посилань @chl на вище, в цьому питанні також обговорюються такі ідеї: різниця між узагальненими лінійними моделями та узагальненими лінійними змішаними моделями в SPSS .
gung - Відновіть Моніку

Відповіді:


12

Там може бути краща і детальніша відповідь, але я можу дати вам кілька простих, швидких думок. Здається, ви говорите про використання узагальненої лінійної моделі (наприклад, типової логістичної регресії), щоб відповідати даним, зібраним з деяких предметів у декілька часових моментів. Спочатку червоніти, я бачу дві надзвичайні проблеми при такому підході.

По-перше, ця модель передбачає, що ваші дані є незалежними з урахуванням коваріатів (тобто після обліку манекенового коду для кожного предмета, схожого на індивідуальний термін перехоплення та лінійної тенденції часу, рівного для всіх). Це дико навряд чи буде правдою. Натомість майже напевно будуть автокореляції, наприклад, два спостереження одного і того ж індивіда, що знаходяться ближче за часом, будуть більш схожими, ніж два спостереження, що знаходяться далі в часі, навіть після врахування часу . (Хоча вони цілком можуть бути незалежними, якщо ви також включили subject ID x timeвзаємодію - тобто унікальну тенденцію часу для всіх - але це посилить наступну проблему.)

По-друге, ви збираєтеся спалити величезну кількість ступенів свободи, оцінюючи параметр для кожного учасника. Ймовірно, у вас залишилося відносно мало рівнів свободи, з якими можна спробувати точно оцінити ваші параметри, що цікавлять (звичайно, це залежить від того, скільки вимірювань у вас на людину).

За іронією долі, перша проблема означає, що ваші довірчі інтервали занадто вузькі, тоді як друга означає, що ваші ІС будуть набагато ширшими, ніж були б, якби ви не витрачали більшість своїх ступенів свободи. Однак я б не розраховував на те, щоб ці двоє врівноважували один одного. Для чого це варто, я вважаю, що ваші оцінки параметрів були б неупередженими (хоча я, можливо, тут помиляюся).

Використання узагальнених оціночних рівнянь є доцільним у цьому випадку. При підборі моделі з допомогою Gee, ви вказуєте кореляційний структуру (наприклад, AR (1)), і це може бути цілком розумним , що ваші дані не залежать зумовлюють як ваші коваріат і кореляційної матриці ви вказали. Крім того, за оцінками GEE, асоціація означає серед населення, тому вам не потрібно спалювати певну міру свободи для кожного учасника - по суті, ви усереднюєте їх.

Щодо інтерпретації, наскільки мені відомо, вона була б однаковою в обох випадках: враховуючи, що інші фактори залишаються постійними, зміна в одній одиниці X3 пов'язана зі зміною B3 в журналі шансів на "успіх" .

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.