Ця відповідь не ґрунтується на моїх знаннях, а цитує те, що Болкер та ін. (2009) писав у впливовій статті в журналі Trends in Ecology and Evolution . Оскільки стаття не є відкритим доступом (хоча пошук її в науковця Google може виявитись успішним, я вважаю, що я навожу важливі уривки, які можуть бути корисними для вирішення частини питань. Отже, знову ж таки, це не те, що я придумав сам, але я думаю вона представляє найкращу згущену інформацію про GLMM (діагностування з урахуванням інтелектуальної інформації), яка надходить прямо вперед і легко зрозуміти стиль письма. Якщо якимось чином ця відповідь з будь-якої причини не підходить, я просто видалю її. корисні стосовно питань діагностики висвітлено усміливий .
Сторінка 127:
Дослідники, які стикаються з ненормальними даними, часто намагаються використовувати ярлики, такі як перетворення даних для досягнення нормальності та однорідності дисперсії, використовуючи непараметричні тести або покладаючись на надійність класичної ANOVA в ненормальність для збалансованих конструкцій [15]. Вони можуть взагалі ігнорувати випадкові ефекти (таким чином здійснюючи псевдорепликацію) або трактувати їх як фіксовані фактори [16]. Однак такі ярлики можуть вийти з ладу (наприклад, дані підрахунку з багатьма нульовими значеннями не можуть бути нормальними шляхом перетворення). Навіть коли вони досягають успіху, вони можуть порушувати статистичні припущення (навіть непараметричні тести роблять припущення, наприклад, про однорідність дисперсії по групах) або обмежують обсяг висновку (не можна екстраполювати оцінки фіксованих ефектів на нові групи). Замість того, щоб ввести свої дані в класичні статистичні рамки, дослідникам слід використовувати статистичні підходи, які відповідають їх даним. Узагальнені лінійні змішані моделі (ГЛМ) об'єднують властивості двох статистичних рамок, які широко використовуються в екології та еволюції, лінійних змішаних моделей (які містять випадкові ефекти) та узагальнених лінійних моделей (які обробляють ненормальні дані за допомогою функцій зв’язку та експоненціальної родини [наприклад нормальні, пуассонові або двочленні розподіли). GLMM - це найкращий інструмент для аналізу ненормальних даних, що передбачають випадкові ефекти: в принципі, все, що потрібно зробити, це вказати розподіл, функцію зв'язку та структуру випадкових ефектів. лінійні змішані моделі (які містять випадкові ефекти) та узагальнені лінійні моделі (які обробляють ненормальні дані за допомогою функцій зв’язку та експоненціальних сімейних розподілів (наприклад, нормальних, пуассонівських або біноміальних) розподілів). GLMM - це найкращий інструмент для аналізу ненормальних даних, що передбачають випадкові ефекти: в принципі, все, що потрібно зробити, це вказати розподіл, функцію зв'язку та структуру випадкових ефектів. лінійні змішані моделі (які містять випадкові ефекти) та узагальнені лінійні моделі (які обробляють ненормальні дані за допомогою функцій зв’язку та експонентних сімейних розподілів (наприклад, нормальних, пуассонівських або біноміальних) розподілів). GLMM - це найкращий інструмент для аналізу ненормальних даних, що передбачають випадкові ефекти: в принципі, все, що потрібно зробити, це вказати розподіл, функцію зв'язку та структуру випадкових ефектів.
Сторінка 129, поле 1:
У невязки вказано overdispersion , тому ми переобладнали дані з моделлю квазі-Пуассона. Незважаючи на великий оціночний параметр масштабу (10,8), дослідницькі графіки не виявили свідчень про виснаження на рівні особин, генотипів чи популяцій. Ми використовували квазі-AIC (QAIC), використовуючи одну ступінь свободи для випадкових ефектів [49], для рандомефекту, а потім для вибору моделі з фіксованим ефектом.
Сторінка 133, вікно 4:
Тут ми окреслимо загальну основу для побудови повної (найскладнішої) моделі, першого кроку в аналізі GLMM. Після цього процесу можна оцінити параметри та порівняти підмоделі, як описано в головному тексті та на малюнку 1.
Вкажіть фіксовану (лікування чи коваріати) та випадкові ефекти (експериментальні, просторові чи часові блоки, особи тощо). Включайте лише важливі взаємодії. Апріорі обмежте модель до можливого рівня складності, виходячи з основних правил (> 5–6 рівнів випадкових ефектів на випадковий ефект та> 10–20 проб на рівень обробки або експериментальної одиниці) та знання адекватних розмірів вибірки, отриманих від попередні дослідження [64,65].
Виберіть розподіл помилок та функцію зв'язку (наприклад, розподіл Пуассона та посилання журналу для даних лічильника, біноміальне розподіл та посилання logit для даних пропорції)
Графічна перевірка : чи варіації даних (перетворені функцією зв’язку) є однорідними між категоріями? Чи є відповіді на трансформовані дані лінійними щодо безперервних предикторів? Чи є чужі люди чи групи? Чи відповідають розподіли в групах передбачуваному розподілу?
ГММ з фіксованим ефектом підходять як до повного (об'єднаного) набору даних, так і до кожного рівня випадкових факторів [28,50]. Оцінені параметри повинні бути приблизно нормально розподілені по групах (параметри на рівні групи можуть мати великі невизначеності, особливо для груп з невеликими розмірами вибірки). За необхідності відрегулюйте модель (наприклад, змініть функцію зв'язку або додайте коваріати).
Підійдіть до повного GLMM. Недостатня пам'ять комп'ютера або занадто повільна: зменшення складності моделі. Якщо оцінка успішна для підмножини даних, спробуйте більш ефективний алгоритм оцінки (наприклад, PQL, якщо це доречно). Нездатність конвергенції (попередження або помилки): зменшити складність моделі або змінити параметри оптимізації (переконайтесь, що отримані відповіді мають сенс). Спробуйте інші алгоритми оцінки. Компоненти нульової дисперсії або особливості (попередження чи помилки): перевірте, чи модель правильно визначена та ідентифікована (тобто теоретично можна оцінити всі компоненти). Зменшити складність моделі. Додавання інформації до моделі (додаткові коваріати або нові угруповання для випадкових ефектів) може полегшити проблеми, як і центрування суцільних коріаріатів шляхом віднімання їх середнього значення [50]. При необхідності виключити випадкові ефекти з повної моделі, випадання (i) термінів, що мають менший внутрішній біологічний інтерес, (ii) терміни з дуже малими розрахунковими відхиленнями та / або великою невизначеністю, або (iii) умови взаємодії. (Помилки конвергенції або нульові відхилення можуть вказувати на недостатню кількість даних.)
χ2
Діаграми залишків повинні використовуватися для оцінки наддисперсії, а трансформовані відхилення повинні бути однорідними по категоріях. Ніде в статті не було сказано, що залишки, як правило, розподіляються нормально.
Я думаю, що причина, чому існують контрастні твердження, відображає те, що GLMM (стор. 127-128) ...
... напрочуд складно використовувати навіть для статистиків. Незважаючи на те, що декілька програмних пакетів можуть працювати з ГЛМ (Таблиця 1), мало екологів та еволюційних біологів знають про різноманітність варіантів чи можливі підводні камені. Рецензуючи документи з екології та еволюції з 2005 року, виявлені Google Scholar, 311 із 537 аналізів GLMM (58%) певним чином використовував ці інструменти (див. Додаткові матеріали в Інтернеті).
І ось кілька повних прикладів з використанням GLMMs включаючи діагностику.
Я усвідомлюю, що ця відповідь більше нагадує коментар, і її слід розглядати як таку. Але розділ коментарів не дозволяє мені додавати такий довгий коментар. Оскільки я вважаю, що цей документ є цінним для цієї дискусії (але, на жаль, за стіною оплати), я вважав, що було б корисно процитувати тут важливі уривки.
Цитовані документи:
[15] - GP Quinn, MJ Keough (2002): Експериментальний дизайн та аналіз даних для біологів, Кембриджський університетський прес.
[16] - MJ Crawley (2002): Статистичні обчислення: вступ до аналізу даних за допомогою S-PLUS, John Wiley & Sons.
[28] - JC Pinheiro, DM Bates (2000): Моделі змішаних ефектів у S та S-PLUS, Springer.
[49] - Ф. Вайда, С. Бланшард (2005): Умовна інформація Akaike для моделей зі змішаними ефектами. Біометріка, 92, с. 351–370.
[50] - А. Гельман, Дж. Хілл (2006): аналіз даних за допомогою регресії та багаторівневих / ієрархічних моделей, Cambridge University Press.
[64] - NJ Gotelli, AM Ellison (2004): Буквар екологічної статистики, Sinauer Associates.
[65] - Ф.Й. Харрелл (2001): стратегії регресійного моделювання, Спрингер.
[66] - Дж. К. Ліндсі (1997): Застосування узагальнених лінійних моделей, Спрингер.
[67] - W. Venables, BD Ripley (2002): Сучасна прикладна статистика з S, Спрингер.
glm.diag.plots
говорить, що це відхилення від ножового відхилення (я підозрюю, що розрізнення важливе). Крім того, я збираю у вас дані про кількість ; ви можете сфокусувати увагу на цьому факті. Наприклад, підрахунки повинні бути (в деякому сенсі) гетероскедастичними. Діагностичні графіки для регресії підрахунку повинні бути корисними для вас (хоча це не стосується аспекту змішаних ефектів).