Це скоріше концептуальне запитання, але в міру використання R
я буду посилатися на пакунки в R
. Якщо мета полягає у встановленні лінійної моделі для прогнозування, а потім робити прогнози, коли випадкові ефекти можуть бути недоступні, чи є користь від використання моделі змішаних ефектів, чи слід використовувати замість неї модель з фіксованим ефектом?
Наприклад, якщо у мене є дані про вагу порівняно з ростом з якоюсь іншою інформацією, і будую наступну модель, використовуючи lme4
, коли предмет є фактором зрівні ( ):
mod1 <- lmer(weight ~ height + age + (1|subject), data=df, REML=F)
Тоді я хочу мати можливість передбачити вагу моделі, використовуючи нові дані про зріст та вік. Очевидно, що відмінність суб'єктів у вихідних даних відображається в моделі, але чи можна використовувати цю інформацію для прогнозування? Скажімо, у мене є нові дані про зріст і вік, і хочу передбачити вагу, я можу зробити так:
predict(mod1,newdata=newdf) # newdf columns for height, age, subject
Це використовуватиме predict.merMod
, і я можу або включити стовпчик для (нових) предметів у newdf
, або встановити re.form =~0
. По-перше, незрозуміло, що робить модель з «новими» предметними факторами, а в другому випадку, чи буде відхилена (усереднена в порівнянні з) для прогнозування відхилення від суб'єкта, відзняте в моделі?
В будь-якому випадку мені здається, що лінійна модель з фіксованим ефектом може бути більш доречною. Дійсно, якщо моє розуміння правильне, то модель з фіксованим ефектом повинна передбачати ті самі значення, що і змішана модель, якщо випадковий ефект не використовується в прогнозуванні. Чи має бути так? У R
ній немає, наприклад:
mod1 <- lmer(weight ~ height + age + (1|subject), data=df, REML=F)
predict(mod1,newdata=newdf, re.form=~0) # newdf columns for height, age, subject
дає різні результати для:
mod2 <- lm(weight ~ height + age, data=df)
predict(mod2,newdata=newdf) # newdf columns for height, age