Порівняння змішаної моделі (предмет як випадковий ефект) з простою лінійною моделлю (предмет як фіксований ефект)


10

Я закінчую аналіз на великому наборі даних. Я хотів би взяти лінійну модель, використану в першій частині роботи, і перевстановити її за допомогою лінійної змішаної моделі (LME). LME був би дуже схожим за винятком того, що одна із змінних, що використовуються в моделі, буде використовуватися як випадковий ефект. Ці дані походять від багатьох спостережень (> 1000) у невеликій групі предметів (~ 10), і я знаю, що моделювання ефекту суб'єкта краще робити як випадковий ефект (це змінна, яку я хочу змінити). Код R виглядатиме так:

my_modelB <- lm(formula = A ~ B + C + D)    
lme_model <- lme(fixed=A ~ B + C, random=~1|D, data=my_data, method='REML')

Все працює нормально, результати дуже схожі. Було б добре, якби я міг використати щось на зразок RLRsim або AIC / BIC, щоб порівняти ці дві моделі та вирішити, яка є найбільш підходящою. Мої колеги не хочуть повідомляти про LME, оскільки не існує легко доступного способу вибору, який є "кращим", хоча я думаю, що LME є більш підходящою моделлю. Будь-які пропозиції?

Відповіді:


6

Це слід додати до відповіді @ ocram, оскільки це занадто довго, щоб розмістити коментар. Я б розглядав A ~ B + Cяк вашу нульову модель, щоб ви могли оцінити статистичну значущість Dвипадкового перехоплення -рівень у налаштуваннях вкладеної моделі. Як зазначав окрам, умови регулярності порушуються, коли , і статистика тесту відношення ймовірності не обов'язково буде асимптотично розподіленою . Мене вчили рішення - це параметрично завантажувати LRT (чий розподіл завантажувальної програми, швидше за все, не буде ), та обчислювати p-значення завантажувальної програми таким чином:χ 2 χ 2H0:σ2=0χ2χ2

library(lme4)
my_modelB <- lm(formula = A ~ B + C)
lme_model <- lmer(y ~ B + C + (1|D), data=my_data, REML=F)
lrt.observed <- as.numeric(2*(logLik(lme_model) - logLik(my_modelB)))
nsim <- 999
lrt.sim <- numeric(nsim)
for (i in 1:nsim) {
    y <- unlist(simulate(mymodlB))
    nullmod <- lm(y ~ B + C)
    altmod <- lmer(y ~ B + C + (1|D), data=my_data, REML=F)
    lrt.sim[i] <- as.numeric(2*(logLik(altmod) - logLik(nullmod)))
}
mean(lrt.sim > lrt.observed) #pvalue

Частка завантажених LRT більше екстремальна, ніж спостережуваний LRT - р-значення.


Дякую, що ви доповнили мою відповідь. Крім того, іноді люди використовують суміш хі-квадратів замість розподілу квадратів чі-квадрат для тестової статистики.
ocram

@ocram +1 для вашого коментаря щодо вирішення питання про те, чи слід розглядати змінну як випадкову чи фіксовану окремо від аналізу. @MudPhud Якщо ваш ІР не розуміє проблеми і наполягає на p-значенні, то, можливо, просто покажіть йому результат тесту на випадковий ефект (який ви все одно включите до підпису).
заблоковано

Дякуємо за код. Коли я запустив це, результат жодної з завантажених LRT не перевищує спостережуваних, тож це означає, що я можу дотримуватися lm без випадкових ефектів або навіть оригінальної змінної, яку викинули.
MudPhud

@MudPhud: У вас виникли помилки? Спробуйте ввести, lrt.simщоб переконатися, що вони не всі нулі, і в цьому випадку найімовірнішим винуватцем буде те, що у вас не встановлений пакет lme4.
заблоковано

Їх немає 0, просто дуже мало (~ 1e-6) порівняно із спостережуваним (63,95).
MudPhud

2

0H0:variance=0H1:variance>0...

EDIT

Щоб уникнути плутанини: Тест, згаданий вище, іноді використовується для вирішення того, чи є випадковий ефект вагомим чи не, але не для того, щоб вирішити, чи слід його перетворювати на фіксований ефект.


Питання: чи є тест, щоб вирішити, чи повинна змінна моделюватися як змішаний ефект чи випадковий ефект? В іншому випадку ви можете зробити тест, який ви описали, а потім протестувати його з розподілом чи-квадрат (я не впевнений, що було б відповідним тестом).
MudPhud

2
@ MudPhud: Моделювання змінної як фіксованої або як випадковий ефект насправді має вирішуватися до аналізу, коли планується дослідження. Це залежить, зокрема, від обсягу ваших висновків. Випадкові ефекти дозволяють зробити більш загальні. Це також може уникнути деяких технічних труднощів. Наприклад, асимптотика може руйнуватися, коли кількість параметрів зростає, як це буває, коли категорична змінна з великою кількістю рівнів розглядається як фіксована змінна.
окрам

Я згоден, але коли я спробував пояснити це моєму ІП, він просто обернувся і попросив отримати якесь значення p. Я хочу включити цей аналіз до рукопису, але він не вкладе його, якщо немає конкретнішого обґрунтування.
MudPhud

1
@MudPhud: Наскільки мені відомо, немає такого значення p для такого рішення. Якщо інтерес орієнтується на вплив вибраних конкретних рівнів, то це слід вважати фіксованим. Якщо наявні рівні факторів розглядаються як випадкова вибірка з більшої сукупності і потрібні умовиводи для більшої популяції, ефект повинен бути випадковим.
окрам
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.