Поява узагальнених лінійних моделей дозволило нам побудувати моделі регресійного типу даних, коли розподіл змінної відповіді є ненормальним - наприклад, коли ваш DV є двійковим. (Якщо ви хотіли б знати трохи більше про Глімс, я написав досить великий відповідь тут , що може бути корисним , хоча контекстним відмінності.) Тим НЕ менше, Гліт, наприклад, модель логістичної регресії, передбачає , що ваші дані є незалежними . Наприклад, уявіть собі дослідження, яке вивчає, чи розвинулася у дитини астма. Кожна дитина сприяє одномуДані вказують на дослідження - у них або астма, або її немає. Однак іноді дані не є незалежними. Розглянемо ще одне дослідження, яке розглядає, чи не завадило дитина в різні моменти протягом навчального року. У цьому випадку кожна дитина вносить багато точок даних. У свій час у дитини може бути застуда, пізніше вони можуть не бути, а пізніше може виникнути ще одна застуда. Ці дані не є незалежними, оскільки вони походили від однієї дитини. Щоб відповідним чином проаналізувати ці дані, нам потрібно якось врахувати цю незалежність. Є два способи: один із способів - використовувати узагальнені рівняння оцінювання (які ви не згадуєте, тому ми пропустимо). Інший спосіб - використовувати узагальнену лінійну змішану модель. GLiMM можуть пояснювати незалежність, додаючи випадкові ефекти (як зазначає @MichaelChernick). Таким чином, відповідь полягає в тому, що ваш другий варіант - для ненормативних повторних заходів (або інакше незалежних) даних. (Я повинен згадати, відповідно до коментарями @ макросів, що заг роскопія лінійні змішані моделі включають в себе лінійні моделі , як окремий випадок , і , таким чином , може використовуватися з нормально розподіленими даними. Однак, в типовому використанні термін асоціюється негауссовских дані.)
Оновлення: (ОП запитала і про GEE, тому я напишу трохи про те, як усі три стосуються один одного.)
Ось основний огляд:
- типовий GLiM (я буду використовувати логістичну регресію як прототипний випадок) дозволяє моделювати незалежну бінарну відповідь як функцію коваріатів
- GLMM дозволяє моделювати незалежний (або кластеризований) бінарний відповідь, що залежить від атрибутів кожного окремого кластера як функції коваріатів
- ГЕЕ дозволяє моделювати математичне очікування відповіді від НЕ-незалежних двійкових даних в залежності від коваріата
Оскільки у вас є кілька випробувань на кожного учасника, ваші дані не є незалежними; як ви правильно зазначаєте, "[t] ріал у одного учасника, ймовірно, буде більш схожим, ніж порівняно з усією групою". Тому вам слід використовувати або GLMM, або GEE.
Тоді питання полягає у тому, як вибрати, чи GLMM чи GEE будуть більш підходящими для вашої ситуації. Відповідь на це питання залежить від предмета вашого дослідження - конкретно, від цілі висновків, які ви сподіваєтеся зробити. Як я вже говорив вище, у GLMM бета-версії розповідають про вплив зміни однієї одиниці ваших коваріатів на конкретного учасника, враховуючи їх індивідуальні особливості. З іншого боку, з GEE, бета-версії розповідають про вплив зміни однієї одиниці ваших коваріатів на середню кількість відгуків всього відповідного населення. Це важко розрізнити, тим більше, що у лінійних моделей такого розрізнення немає (в такому випадку обидва - це одне і те ж).
Один із способів спробувати обернути голову - це уявити усереднення серед населення по обидва боки знаку рівності у вашій моделі. Наприклад, це може бути модель:
де:
Існує параметр, який регулює розподіл відповідей ( , ймовірність, з двійковими даними) зліва на кожного учасника. Праворуч є коефіцієнти для ефекту коваріату [s] та базового рівня, коли коваріат [s] дорівнює 0. Перше, що слід помітити, це те, що фактичний перехоплення для будь-якої конкретної особи не є , а точніше logit
logit ( сi) = β0+ β1Х1+ bi
pβ0(β0+bi)biβ0β1pilogitβ1logit ( p ) = ln( с1 - с) ,&b∼ N ( 0 , σ2б)
p β0( β0+ bi) . Але так що? Якщо ми припускаємо, що (випадковий ефект) зазвичай розподіляється із середнім значенням 0 (як ми це зробили), безумовно, ми можемо без середнього (це було б просто ). Більше того, у цьому випадку ми не маємо відповідного випадкового ефекту для схилів, і тому їх середнє значення є просто . Отже, середнє перехоплення плюс середнє значення нахилів повинно дорівнювати перетворенню logit середнього значення зліва, чи не так? На жаль,
ні . Проблема полягає в тому, що між цими двома знаходиться , який є
нелінійнимбiβ0β1pilogitперетворення. (Якби перетворення було лінійним, вони були б еквівалентними, тому ця проблема не виникає для лінійних моделей.) Наступний сюжет дає зрозуміти:
Уявіть, що цей графік являє собою базовий процес генерування даних для ймовірності того, що малий клас студенти зможуть скласти тест з певного предмету із заданою кількістю годин навчання з даної теми. Кожна із сірих кривих представляє ймовірність проходження тесту з різною кількістю інструкцій для одного з учнів. Жирна крива - це середня величина за весь клас. У цьому випадку ефект додаткової години викладання,
що залежить від атрибутів студента, є
β1- те саме для кожного учня (тобто немає випадкового нахилу). Зауважте, що базові здібності студентів відрізняються між собою - ймовірно, через різниці в таких речах, як IQ (тобто є випадковий перехоплення). Однак середня ймовірність для класу в цілому має інший профіль, ніж студенти. Вражаючий контраінтуїтивний результат такий:
додаткова година навчання може мати значний вплив на ймовірність того, що кожен студент здає тест, але має відносно невеликий вплив на ймовірну загальну частку студентів, які здають . Це тому, що деякі студенти, можливо, вже мали великий шанс пройти, а інші ще мало шансів.
Питання про те, чи слід використовувати GLMM чи GEE - це питання про те, яку з цих функцій потрібно оцінити. Якщо ви хотіли дізнатися про ймовірність того, що той чи інший студент пройшов (якщо, скажімо, ви були студентом чи батьком учня), ви хочете скористатися GLMM. З іншого боку, якщо ви хочете дізнатися про вплив на населення (якби, наприклад, ви були вчителем чи директором), ви хочете скористатися GEE.
Ще одне, більш математичне, детальне обговорення цього матеріалу дивіться у цій відповіді від @Macro.