Коли я повинен * не * дозволяти фіксованому ефекту змінюватися в різних рівнях випадкової дії в моделі змішаних ефектів?


16

Враховуючи передбачувану змінну (P), випадковий ефект (R) та фіксований ефект (F), можна помістити дві моделі змішаних ефектів * ( синтаксис lme4 ):

m1 = lmer( P ~ (1|R) + F )
m2 = lmer( P ~ (1+F|R) + F)

Як я розумію, друга модель - це та, яка дозволяє фіксованому ефекту змінюватись у різних рівнях випадкового ефекту.

У своєму дослідженні я зазвичай використовую моделі змішаних ефектів для аналізу даних експериментів, проведених на кількох учасниках людини. Я моделюю учасника як випадковий ефект, а експериментальні маніпуляції - як фіксовані ефекти. Я думаю, що має сенс апріорі дозволити різнитися в тій мірі, в якій ступінь впливу фіксованих ефектів на ефективність в експерименті залежить від учасників. Однак у мене виникають труднощі уявити обставини, за яких я не повинен ні дозволяти фіксованим ефектам змінюватись у різних рівнях випадкового ефекту, тому моє питання таке:

Коли слід один НЕ допускати фіксований ефект змінювати за рівнями випадкового ефекту?


Я досі не повністю розумію синтаксис lme4, тому мені цікаво бачити відповідь. Але у мене є думка, що це пов’язано з такою різницею: P - кількість часу, яке студент витрачає на виконання домашніх завдань, R - це лікування на рівні класу, а F - студент. (Ми також повинні мати випадковий ефект для самого класу.) Якщо всі студенти підлягають всім методам лікування R в різний час, рівні F можуть бути порівнянні між класами. Якщо ми виміряємо відразу всю школу, у кожного класу є різні учні, тому рівні F в різних класах не мають нічого спільного.
Томас Левін

Відповіді:


11

Я не є експертом у моделюванні змішаних ефектів, але на питання набагато простіше відповісти, якщо воно перефразоване в контексті моделювання ієрархічної регресії. Отже, наші спостереження мають два індекси та F i j з індексом i, що представляє клас та j членів класу. Ієрархічні моделі дозволяють нам підходити до лінійної регресії, де коефіцієнти змінюються в різних класах:PijFijij

Yij=β0i+β1iFij

Це наш регрес першого рівня. Регресія другого рівня проводиться за першими коефіцієнтами регресії:

β0i=γ00+u0iβ1i=γ01+u1i

коли ми підставляємо це в регресію першого рівня, яку ми отримуємо

Yij=(γ0+u0i)+(γ01+u1i)Fij=γ0+u0i+u1iFij+γ01Fij

Тут це фіксовані ефекти, а - випадкові ефекти. Змішані моделі оцінки та дисперсії .u γ uγuγu

Модель, яку я записав, відповідає lmerсинтаксису

P ~ (1+F|R) + F

Тепер, якщо поставити без випадкового доданку, який ми отримаємоβ1i=γ01

Yij=γ0+u0i+γ01Fij

що відповідає lmerсинтаксису

P ~ (1|R) + F

Тож тепер виникає питання, коли можна виключити термін помилки з регресії другого рівня? Канонічна відповідь полягає в тому, що коли ми впевнені, що регресорів (у нас їх немає, але ми можемо їх включити, вони, природно, є постійними в межах класів), в регресії другого рівня повністю пояснюється дисперсія коефіцієнтів по класах.

Тож у цьому конкретному випадку, якщо коефіцієнт не змінюється, або, як варіант, дисперсія дуже мала, нам слід розважати про те, що нам, мабуть, краще з першою моделлю. u 1 iFiju1i

Примітка . Я лише дав алгебраїчне пояснення, але думаю, маючи це на увазі, набагато простіше придумати конкретний прикладний приклад.


Якщо також у першому рівнянні є термін помилки:Yij=β0i+β1iFij+eij
Микита Самойлов

так, але я пропустив це для ясності.
mpiktas

10

Ви можете думати про "фіксований ефект" як "випадковий ефект" з дисперсійною складовою нуля.

Отже, проста відповідь на те, чому ви не дозволили фіксованому ефекту змінюватися, є недостатньою ознакою для "досить великої" складової дисперсії. Докази повинні виходити як з попередньої інформації, так і з даних. Це узгоджується з основним принципом "бритви оккаму": не робіть свою модель складнішою, ніж повинна бути.

Я схильний думати про лінійні змішані моделі таким чином, виписую множинні регресії так:

Y=Xβ+Zu+e

Отже - "фіксована" частина моделі, - "випадкова" частина, а - залишковий стиль OLS. Маємо для параметрів дисперсії "випадкового ефекту" та . Це дає стандартні результати , це означає, що ми маємо:XβZueuN(0,D(θ))θeN(0,σ2I)(Zu+e)N(0,ZD(θ)ZT+σ2I)

YN(Xβ,ZD(θ)ZT+σ2I)

Порівняйте це з регресією OLS (яка має ) і отримаємо:Z=0

YN(Xβ,σ2I)

Тож "випадкова" частина моделі може розглядатися як спосіб уточнення попередньої інформації про кореляційну структуру компонента шуму чи помилки в моделі. OLS в основному передбачає, що будь-яка одна помилка з нерухомої частини моделі в одному випадку є марною для передбачення будь-якої іншої помилки, навіть якщо ми знали фіксовану частину моделі з певністю. Додавання випадкового ефекту в основному говорить про те, що ви вважаєте, що деякі помилки, ймовірно, будуть корисні при прогнозуванні інших помилок.


5

Це досить старе питання, на яке є дуже хороші відповіді, проте я думаю, що це може отримати користь від нової відповіді, щоб вирішити більш прагматичну перспективу.

Коли не слід дозволити фіксованому ефекту змінюватись у різних рівнях випадкового ефекту?

Я не буду займатися питаннями, які вже були описані в інших відповідях, натомість я посилатимусь на відому на даний момент, хоча я б сказав, що "сумнозвісний" документ Barr et al (2013), який часто називають "Максимально тримати"

Barr, DJ, Levy, R., Scheepers, C. and Tily, HJ, 2013. Структура випадкових ефектів для перевірки підтверджувальної гіпотези: Тримайте її максимально. Журнал пам’яті та мови, 68 (3), с.255-278.

У цій роботі автори стверджують, що всі фіксовані ефекти повинні бути дозволені змінюватись за різними рівнями факторів групування (випадкові перехоплення). Їх аргумент є досить переконливим - в основному тим, що, не дозволяючи їм змінюватись, він накладає обмеження на модель. Це добре описано в інших відповідях. Однак можливі серйозні проблеми з таким підходом, які описані Bates el al (2015):

Бейтс, Д., Клієль, Р., Васишт, С. і Бааєн, Х., 2015. Пармімоніальні змішані моделі. переддрук arXiv arXiv: 1506.04967

Тут варто зазначити, що Bates є основним автором lme4пакету для встановлення змішаних моделей в R, який, мабуть, є найбільш широко використовуваним пакетом для таких моделей. Бейтс та ін зазначають, що у багатьох реальних додатках дані просто не підтримують максимальну структуру випадкових ефектів, часто тому, що в кожному кластері недостатньо кількості спостережень за відповідними змінними. Це може проявлятися в моделях, які не сходяться або є сингулярними у випадкових ефектах. Про це свідчить велика кількість запитань на цьому сайті щодо таких моделей. Вони також відзначають, що Барр та ін використовували порівняно просте моделювання, з основою для їх роботи "добре поводилися" випадкові ефекти. Натомість Bates та ін пропонують такий підхід:

Ми запропонували (1) використовувати PCA для визначення розмірності дисперсійно-коваріантної матриці структури випадкових ефектів, (2) спочатку обмежувати параметри кореляції до нуля, особливо коли початкова спроба встановити максимальну модель не збігається, та (3) випадати з моделі несуттєві компоненти дисперсії та пов'язані з ними параметри кореляції

У цьому ж документі вони також зазначають:

Важливо, що невдача конвергенції не пов'язана з дефектами алгоритму оцінювання, а є прямим наслідком спроби встановити занадто складну модель, щоб її належним чином підтримували дані.

І:

Максимальні моделі не потрібні для захисту від антиконсервативних висновків. Цей захист повністю забезпечується комплексними моделями, які керуються реалістичними очікуваннями щодо складності, яку можуть підтримувати дані. У статистиці, як і в науці, парсистика - це чеснота, а не порок.

Бейтс та ін (2015)

З більш застосовної точки зору, подальший розгляд, який слід розглянути, полягає в тому, чи повинен процес генерування даних, біологічна / фізична / хімічна теорія, що лежить в основі даних, орієнтувати аналітика на визначення структури випадкових ефектів.


"Часто через те, що в кожному кластері недостатня кількість спостережень", чи можете ви детальніше розглянути це? Я подумав, мінімально необхідна кількість на кластер - 1? Це навіть ваша прийнята відповідь тут: stats.stackexchange.com/questions/388937/…
LuckyPal

@LuckyPal питання, з яким ви пов’язані, стосується випадкових перехоп, це стосується випадкових нахилів. Як би ви оцінили нахил для розміру вибірки 1?
Роберт Лонг

Точка взята. Спасибі! +1 Але ми можемо оцінити фіксований нахил лише одним спостереженням на кластер, якщо достатньо кластерів, правда? Це здається трохи дивним. Можливо, коли виникають проблеми конвергенції з випадковим нахилом через розмір вибірки, оцінка схилу - будь то випадковий чи ні - може бути сумнівною в цілому?
LuckyPal

@LuckyPal так, оцінка фіксованого схилу є у всіх кластерах, тому це зазвичай не є проблемою. Я згоден, що оцінка випадкового нахилу з малими кластерами може призвести до проблем конвергенції, але це не повинно впливати на оцінку фіксованого нахилу.
Роберт Лонг
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.