Сингулярні коваріаційні матриці випадкових ефектів
Отримання оцінки кореляції випадкових ефектів +1 або -1 означає, що алгоритм оптимізації досяг "межі": кореляції не можуть бути вище +1 або нижче -1. Навіть якщо явних помилок конвергенції чи попереджень немає, це потенційно вказує на деякі проблеми з конвергенцією, оскільки ми не очікуємо, що справжня кореляція лежить на межі. Як ви вже говорили, це зазвичай означає, що недостатньо даних для надійної оцінки всіх параметрів. Матущек та ін. 2017 рік кажуть, що в цій ситуації влада може бути поставлена під загрозу.
Ще один спосіб досягти межі - це отримати оцінку дисперсії 0: Чому я отримую нульову дисперсію випадкового ефекту в моїй змішаній моделі, незважаючи на певні зміни в даних?
Обидві ситуації можна розглядати як отримання виродженої матриці коваріації випадкових ефектів (у вашому прикладі вихідна матриця коваріації становить ); нульова дисперсія або досконала кореляція означає, що матриця коваріації не є повним рангом і [принаймні] одна з її власних значень дорівнює нулю. Це спостереження одразу підказує, що існують інші , більш складні способи отримати вироджену матрицю коваріації: можна мати кратну матричну коваріаційну матрицю без нулів або досконалих кореляцій, але, тим не менш, дефіцит за рангом (сингулярний). Бейтс та ін. 2015-х парамімонічні змішані моделі4×44×4(неопублікований додрук) рекомендують використовувати аналіз основних компонентів (PCA), щоб перевірити, чи отримана коваріаційна матриця є сингулярною. Якщо це так, вони пропонують поставитися до цієї ситуації так само, як і до вищеописаних сингулярних ситуацій.
То що робити?
Якщо недостатньо даних, щоб надійно оцінити всі параметри моделі, то слід розглянути можливість спрощення моделі. Беручи вашу прикладну модель, X*Cond + (X*Cond|subj)
існують різні можливі способи її спрощення:
Видаліть один із випадкових ефектів, як правило, кореляцію найвищого порядку:
X*Cond + (X+Cond|subj)
Позбавтеся від усіх параметрів кореляції:
X*Cond + (X*Cond||subj)
Оновлення: як зазначає @Henrik, ||
синтаксис видалить кореляції лише у тому випадку, якщо всі змінні зліва від нього будуть числовими. Якщо Cond
задіяні категоричні змінні (наприклад, ), скоріше слід скористатися його зручним afex
пакетом (або громіздким ручним способом обходу). Дивіться його відповідь для отримання більш детальної інформації.
Позбавтеся деяких параметрів кореляції, розбивши термін на кілька, наприклад:
X*Cond + (X+Cond|subj) + (0+X:Cond|subj)
- Обмежте матрицю коваріації якимось конкретним способом, наприклад, встановивши одну конкретну кореляцію (ту, яка потрапила на межу) до нуля, як ви пропонуєте. Немає вбудованого способу
lme4
цього досягти. Дивіться відповідь @ BenBolker на SO для демонстрації того, як цього досягти за допомогою розумного злому.
Всупереч сказаному , я не думаю, що Matuschek та ін. 2017 конкретно рекомендую №4. Суть Матушека та ін. 2017 та Bates та ін. 2015 рік, здається, починається з максимальної моделі a la Barr et al. 2013 року, а потім зменшує складність, поки матриця коваріації не стане повною. (Більше того, вони часто рекомендують ще більше зменшити складність, щоб збільшити потужність.) Оновлення: На противагу цьому, Барр та ін. рекомендують ТІЛЬКО зменшити складність, якщо модель не збіглася; вони готові переносити сингулярні матриці коваріації. Дивіться відповідь @ Генріка.
Якщо хтось погоджується з Бейтсом / Матушеком, то я вважаю, що добре спробувати різні способи зменшення складності, щоб знайти той, який виконує роботу, роблячи «найменший збиток». Дивлячись на мій список вище, оригінальна матриця коваріації має 10 параметрів; №1 має 6 параметрів, №2 має 4 параметри, №3 має 7 параметрів. Яка модель позбудеться ідеальних кореляцій, неможливо сказати, не підходячи до них.
Але що робити, якщо вас цікавить цей параметр?
Вищенаведене обговорення розглядає матрицю коваріації випадкових ефектів як параметр неприємності. Ви ставите цікаве питання, що робити, якщо вас конкретно цікавить параметр кореляції, який вам доведеться "відмовити", щоб отримати повноцінне повноцінне рішення.
Зауважте, що фіксація параметра кореляції в нулі не обов'язково дасть BLUPs ( ranef
), які є некорельованими; насправді, вони можуть навіть не так сильно постраждати (див . відповідь Плацидії для демонстрації ). Таким чином, одним із варіантів було б переглянути співвідношення BLUP та повідомити про це.
Іншим, можливо, менш привабливим варіантом буде використання трактування subject
як фіксованого ефекту Y~X*cond*subj
, отримання оцінок для кожного предмета та обчислення кореляції між ними. Це еквівалентно виконанню окремих Y~X*cond
регресій для кожного предмета окремо та отримання кореляційних оцінок з них.
Дивіться також розділ про особливі моделі у змішаній моделі Бен Болкер:
Дуже часто зустрічаються переобладнані змішані моделі, що призводять до поодиноких пристосувань. Технічно сингулярність означає, що деякі параметри (дисперсія-коваріантність Чолеського), що відповідають діагональним елементам коефіцієнта Холеського, дорівнюють нулю, що є межею можливого простору, або рівнозначно, що матриця дисперсії-коваріації має деякий нуль власні значення (тобто є позитивним напівдефінітом, а не позитивним певним), або (майже еквівалентно), що деякі відхилення оцінюються як нульові, а частина кореляцій оцінюється як +/- 1.θ