Обчислення у змішаних моделях з використанням методу R2glmm Nakagawa & Schielzeth (2013)


13

Я читав про обчислення значень R2 у змішаних моделях і після прочитання відповідей на R-sig, інших публікацій на цьому форумі (я б зв’язав декілька, але мені не вистачає репутації) та кілька інших посилань, я розумію, що використовуючи Значення R2 у контексті змішаних моделей є складним.

Однак я нещодавно натрапив на ці два документи нижче. Хоча ці методи виглядають багатообіцяючим (для мене), я не є статистиком, і мені було цікаво, чи хтось інший матиме уявлення про запропоновані ними методи та як вони порівнюватимуть з іншими запропонованими методами.

Накагава, Шинічі та Хольгер Шильцет. "Загальний і простий метод отримання R2 з узагальнених лінійних моделей змішаних ефектів". Методи екології та еволюції 4.2 (2013): 133-142.

Джонсон, Пол CD. "Розширення R2GLMM Nakagawa & Schielzeth до моделей випадкових схилів." Методи в екології та еволюції (2014).

Метод is може також бути реалізований за допомогою функції r.squaredGLMM в пакеті MuMIn, який дає наступний опис методу.

Для моделей зі змішаними ефектами можна класифікувати на два типи. Гранична являє собою дисперсію, пояснювану фіксованими факторами, і визначається як: Умовно інтерпретується як дисперсія, що пояснюється як фіксованими, так і випадковими факторами (тобто всією моделлю), і обчислюється за рівнянням: де - дисперсія компонентів фіксованого ефекту, і - сума всіх дисперсійних компонентів (групових, індивідуальних тощо),R2R2

RGLMM(m)2=σf2σf2+(σl2)+σe2+σd2
R2
RGLMM(c)2=(σf2+(σl2))(σf2+(σl2)+σe2+σd2
σf2(σl2)σl2- дисперсія, обумовлена ​​адитивною дисперсією, а - дисперсія, характерна для розподілу. σd2

У своєму аналізі я розглядаю поздовжні дані, і в першу чергу мене цікавить дисперсія, що пояснюється фіксованими ефектами в моделі

library(MuMIn) 
library(lme4)

fm1 <- lmer(zglobcog ~ age_c + gender_R2 + ibphdtdep + iyeareducc + apoegeno + age_c*apoegeno + (age_c | pathid), data = dat, REML = FALSE, control = lmerControl(optimizer = "Nelder_Mead"))

# Jarret Byrnes (correlation between the fitted and the observed values)
r2.corr.mer <- function(m) {
   lmfit <-  lm(model.response(model.frame(m)) ~ fitted(m))
   summary(lmfit)$r.squared
}

r2.corr.mer(fm1)
[1] 0.8857005

# Xu 2003
1-var(residuals(fm1))/(var(model.response(model.frame(fm1))))
[1] 0.8783479

# Nakagawa & Schielzeth's (2013)
r.squaredGLMM(fm1)
      R2m       R2c 
0.1778225 0.8099395 

Я відредагував вашу публікацію для використання форматування mathjax. Перевірте, чи не випадково я ввів помилок.
Sycorax повідомляє про відновлення Моніки

Наскільки у вашому питанні немає реального питання, наскільки я його розумію. Чи можете ви уточнити, чого ви хочете? Рекомендація, що використовувати?
Генрік

Привіт @Henrik, мене зацікавила рекомендація, що використовувати, так, але також ширше, як різні методи порівнюють один одного та які відмінності.
Ендрюс

Я вважаю, що початкові та вище рівняння є неправильними. Це не пов’язано зі змінами @ user777. Два знаки праворуч мають бути в знаменнику. Дивіться це .
Кирила

Ця помилка, ймовірно, була викликана тим, що в документації на пакунок MuMIn не було закритих дужок .
Кирила

Відповіді:


11

Я відповідаю, вставляючи відповідь Дугласа Бейтса у списку розсилки R-Sig-ME 17 грудня 2014 року на питання, як обчислити статистику для узагальнених лінійних змішаних моделей, яку, на мою думку, потрібно прочитати для всіх, хто цікавиться така річ. Бейтс є оригінальним автором пакету для R та співавтором , а також співавтором відомої книги про змішані моделі , а CV буде корисним, якщо текст у відповідь, а не просто посилання на це.R2lme4nlme

Я мушу визнати, що я трохи посміхнувся, коли люди говорять про "R2 для GLMM". R2 для лінійної моделі добре визначений і має багато бажаних властивостей. Для інших моделей можна визначити різні величини, які відображають деякі, але не всі ці властивості. Але це не обчислення R2 в сенсі отримання числа, що має всі властивості, які має R2 для лінійних моделей. Зазвичай існує кілька різних способів, за якими можна було б визначити таку кількість. Спеціально для GLM та GLMM, перш ніж ви зможете визначити "співвідношення відхилень відповіді, пояснене", спочатку потрібно визначити, що ви маєте на увазі під "дисперсією відповіді".

Плутанина щодо того, що являє собою R2 або ступінь свободи будь-якої з інших величин, пов'язаних з лінійними моделями, застосованими до інших моделей, походить від плутання формули з концепцією. Хоча формули отримані з моделей, деривація часто включає досить складну математику. Щоб уникнути потенційно заплутаної деривації та просто "підрізати погоню", легше представити формули. Але формула - це не поняття. Узагальнення формули не рівнозначне узагальненню поняття. І ці формули майже ніколи не використовуються на практиці, особливо для узагальнених лінійних моделей, аналізу дисперсії та випадкових ефектів. У мене є "мета-теорема" про те, що єдина кількість, яка фактично обчислюється за формулами, наведеними у вступних текстах, є середньою вибіркою.

Може здатися, що я є бурхливим старим чоловіком з цього приводу, і, можливо, я є, але небезпека полягає в тому, що люди очікують, що кількість, схожа на R2, має всі властивості R2 для лінійних моделей. Це не може. Немає способу узагальнити всі властивості на набагато складнішу модель, як GLMM.

Я колись був у комітеті, який розглядав пропозицію дисертації для кандидата наук. кандидатура. Пропозиція полягала в тому, щоб розглянути 9 різних формул, які можна вважати способами обчислення R2 для нелінійної регресійної моделі, щоб визначити, яка з них була "найкращою". Зрозуміло, це було б зроблено за допомогою симуляційного дослідження лише з декількома різними моделями та лише декількома різними наборами значень параметрів для кожної. Моє припущення, що це абсолютно безглузда вправа, не було зустрінене тепло.


10

Після перегляду літератури я натрапив на наступний документ, в якому порівнюється кілька різних методів обчислення значень для змішаних моделей, де методи (MVP) еквівалентні методу, запропонованому Накагавою та Шильцетом.R2R2

  • Lahuis, D et al (2014) пояснили міри варіацій для багаторівневих моделей. Організаційні методи дослідження.

введіть тут опис зображення

Загалом, більшість заходів (Формула, Формула, (OLS) та (MVP)) демонстрували прийнятні рівні упередженості, послідовності та ефективності для всіх умов та моделей. Крім того, різниця середніх значень зміщення для цих заходів була невеликою. Формули та формули були найменш упередженими в моделях випадкових перехоплень, а формули та (MVP) були найменш упередженими у моделях з випадковим нахилом. З точки зору ефективності, формула та (MVP) мали найнижчі значення стандартного відхилення в моделі випадкового перехоплення. (MVP) і (OLS) мали найнижчі стандартні відхилення в моделі випадкових нахилів. Загалом, Формула не була ефективною оцінкою.R2R2R2R2R2R2

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.