Коли використовувати модель змішаного ефекту?


11

Моделі лінійних змішаних ефектів - це розширення моделей лінійної регресії для даних, які збираються та узагальнюються в групах. Ключові переваги - коефіцієнти можуть змінюватися залежно від однієї або декількох змінних групи.

Однак я бореться з тим, коли використовувати модель зі змішаним ефектом? Свої запитання я опрацюю на прикладі іграшки в крайніх випадках.

Припустимо, ми хочемо моделювати висоту та вагу тварин, і ми використовуємо види як змінні групи.

  • Якщо різні групи / види справді різні. Скажіть собаку і слона. Я думаю, що немає сенсу використовувати модель змішаного ефекту, ми повинні будувати модель для кожної групи.

  • Якщо різні групи / види дійсно схожі. Скажіть жіночу собаку та чоловічу собаку. Я думаю, що ми можемо захотіти використовувати гендер як категоричну змінну в моделі.

Отже, я припускаю, що ми повинні використовувати модель із змішаним ефектом у середніх випадках? Скажімо, у групі є кішки, собаки, кролики, вони схожих за розміром тварин, але різні.

Чи є якийсь офіційний аргумент, щоб підказати, коли використовувати модель змішаного ефекту, тобто як намалювати лінії серед

  1. Побудова моделей для кожної групи
  2. Модель змішаного ефекту
  3. Використовуйте групу як категоричну змінну в регресії

Моя спроба: метод 1 - це найбільш "складна модель" / менший ступінь свободи, а метод 3 - сама "проста модель" / більше ступінь свободи. А модель із змішаним ефектом знаходиться посередині. Ми можемо врахувати, скільки даних і наскільки складні дані ми маємо вибрати правильну модель відповідно до Bais Variance Trade Off.


5
Про це йдеться в багатьох темах на цьому форумі. Ви шукали деяких? Зауважте, що ваш варіант із "категоріальною змінною" - це те, що називається "фіксованим ефектом" (групування змінної), тоді як те, що ви маєте на увазі під "змішаною моделлю", - це "випадковий ефект". Тож, про що ви запитуєте, це коли використовувати фіксований і коли використовувати випадковий ефект. На це питання є різні думки, і ви можете знайти багато дискусій у резюме. Я можу опублікувати деякі посилання пізніше.
амеба

Також мені не зрозуміла різниця між "побудовою окремих моделей" та "використанням категоричної змінної". activity ~ condition + species + condition*species- тут використовується speciesкатегорична змінна, але це повністю еквівалентно окремій регресії activity ~ conditionдля кожного виду окремо.
амеба

2
Перевірте цю тему: stats.stackexchange.com/questions/120964/… , вона не відповідає безпосередньо на ваше запитання, але забезпечує обговорення, тісно пов'язане з вашим запитанням.
Тім

3
Ну, ви для початку прочитали stats.stackexchange.com/a/151800/28666 ?
амеба

2
"Якщо різні групи / види справді різні. Скажімо, собака і слон. Я думаю, що немає сенсу використовувати модель змішаного ефекту, ми повинні будувати модель для кожної групи". Це дійсно справедливо лише в тому випадку, якщо ви очікуєте, що наслідки всіх інших особливостей відрізнятимуться за видами. У більшості ситуацій це занадто ліберальне припущення.
Меттью Друрі

Відповіді:


8

Боюся, що я міг би отримати нюансовану і, можливо, незадовільну відповідь, що це суб'єктивний вибір дослідника чи аналітика даних. Як було сказано в іншому потоці, недостатньо просто сказати, що дані мають "вкладену структуру". Для справедливості, саме стільки книг описують, коли використовувати багаторівневі моделі. Наприклад, я щойно витягнув книгу Джоупа Хокса з багаторівневого аналізу зі своєї книжкової полиці, яка дає таке визначення:

Багаторівнева проблема стосується населення з ієрархічною структурою.

Навіть у досить хорошому підручнику початкове визначення здається круговим. Я думаю, що це частково пов'язане з суб'єктивністю визначення того, коли використовувати якусь модель (включаючи багаторівневу модель).

Інша книга, лінійні змішані моделі West, Welch та Galecki, говорить, що ці моделі призначені для:

вихідні змінні, в яких залишки звичайно розподіляються, але можуть не бути незалежними або мати постійну дисперсію. Проекти дослідження, що ведуть до наборів даних, які можуть бути відповідним чином проаналізовані за допомогою ЛММ, включають (1) дослідження з кластерними даними, такі як студенти в аудиторіях, або експериментальні конструкції з випадковими блоками, такими як партії сировини для промислового процесу, та (2) дослідження поздовжніх чи повторних заходів, в яких випробовуваних вимірюють повторно за часом або за різних умов.

Багаторівневе моделювання Фінча, Боліна та Келлі в R також говорить про порушення припущення про айд і корельовані залишки:

Особливе значення в контексті багаторівневого моделювання має припущення [у стандартній регресії] незалежно розподілених термінів помилок для окремих спостережень у вибірці. Це припущення, по суті, означає, що у вибірці немає залежностей для залежної змінної після обліку незалежних змінних в аналізі.

Я вважаю, що багаторівнева модель має сенс, коли є підстави вважати, що спостереження не обов'язково залежать одне від одного. Які б "кластерні" рахунки для цієї незалежності не можна моделювати.

Очевидним прикладом можуть бути діти в аудиторіях - всі вони взаємодіють між собою, що може призвести до того, що їхні тестові бали не залежать. Що робити, якщо в одному класі є хтось, хто задає питання, що призводить до того, що матеріал буде охоплений у тому класі, який не охоплюється в інших класах? Що робити, якщо вчитель на деяких заняттях прокидається більше, ніж на інших? У цьому випадку буде деяка незалежність даних; у багаторівневих словах ми могли б очікувати, що деяка дисперсія залежної змінної буде пов'язана з кластером (тобто класом).

Я думаю, що ваш приклад собаки проти слона залежить від незалежних та залежних змінних, що цікавлять вас. Наприклад, скажімо, ми запитуємо, чи є вплив кофеїну на рівень активності. Тваринам з усього зоопарку довільно отримують напій з кофеїном або контрольний напій.

Якщо ми є дослідником, який цікавиться кофеїном, ми можемо вказати багаторівневу модель, тому що нас дійсно хвилює ефект кофеїну. Ця модель буде вказана як:

activity ~ condition + (1+condition|species)

Це особливо корисно, якщо існує велика кількість видів, на яких ми перевіряємо цю гіпотезу. Однак дослідника можуть зацікавити видові ефекти кофеїну. У цьому випадку вони могли б вказати види як фіксований ефект:

activity ~ condition + species + condition*species

Це, очевидно, є проблемою, якщо існує, скажімо, 30 видів, що створює громіздкий дизайн розміром 2 х 30. Однак ви можете бути досить креативними з того, як можна моделювати ці відносини.

Наприклад, деякі дослідники стверджують про ще більш широке використання багаторівневого моделювання. Гельман, Хілл та Яджіма (2012) стверджують, що багаторівневе моделювання може бути використане як корекція для численних порівнянь - навіть в експериментальних дослідженнях, де структура даних не є явно ієрархічною за своєю суттю:

Більш важкі проблеми виникають при моделюванні декількох порівнянь, які мають більшу структуру. Наприклад, припустимо, що у нас є п'ять заходів, три різновиди лікування та підгрупи, класифіковані за двома статями та чотирма расовими групами. Ми не хотіли б моделювати цю структуру 2 × 3 × 4 × 5 як 120 обмінних груп. Навіть у цих більш складних ситуаціях ми вважаємо, що багаторівневе моделювання повинно і зрештою буде замість класичних процедур множинних порівнянь.

Проблеми можуть бути змодельовані різними способами, а в неоднозначних випадках кілька підходів можуть здатися привабливими. Я думаю, що наша робота полягає в тому, щоб вибрати розумний, усвідомлений підхід і зробити це прозоро.


5

Можна, звичайно, створити модель для кожної різної групи, в цьому немає нічого поганого. Однак вам знадобиться більший розмір вибірки та потрібно керувати кількома моделями.

Використовуючи змішану модель, ви об'єднуєте (і обмінюєтесь) даними разом, і, таким чином, потрібно менший розмір вибірки.

Роблячи це, ми обмінюємось статистичною силою. Ідея тут полягає в тому, що те, про що ми можемо добре зробити висновок в одній групі даних, може допомогти нам у чомусь, про що ми не можемо зробити висновок в іншій.

Змішані моделі також запобігають надмірній вибірці груп від несправедливо домінування висновку.

Моя думка, якщо ви хочете моделювати основну ієрархічну структуру латера, вам слід додати до своєї моделі випадкові ефекти. В іншому випадку, якщо вам не все одно в тлумаченні моделі, ви не використовуєте її.

https://www.dropbox.com/s/rzi2rsou6h817zz/Datascience%20Presentation.pdf?dl=0

дає відповідне обговорення. Автор обговорював, чому він не хотів запускати окремі регресійні моделі.

введіть тут опис зображення


4

У моделях зі змішаними ефектами ви додаєте до своєї моделі випадкові (помилкові) терміни, тому ви "змішуєте" фіксовані та випадкові ефекти. Отже, ще одним підходом до розгляду, коли використовувати моделі зі змішаними ефектами, може бути розгляд того, що таке «випадковий ефект». Таким чином, окрім попередньо наданих відповідей, я також знаходжу різницю між термінами "фіксований" та "випадковий" ефекти від Bates (2010), повчальний, розділ 1.1 (особливо сторінка 2).

Параметри, пов'язані з конкретними рівнями коваріату, іноді називають "ефектами" рівнів. Якщо набір можливих рівнів коваріату є фіксованим і відтворюваним, ми моделюємо коваріат, використовуючи параметри фіксованих ефектів. Якщо рівні, які ми спостерігали, являють собою випадкову вибірку з набору всіх можливих рівнів, ми включаємо в модель випадкові ефекти. Про цю різницю між параметрами фіксованого впливу та випадковими ефектами слід помітити дві речі. По-перше, імена вводять в оману, оскільки відмінність між фіксованим та випадковим є скоріше властивістю рівнів категоричного коваріату, ніж властивістю пов'язаних з ними ефектів.

Це визначення часто застосовується до якоїсь ієрахічної структури, наприклад, країн чи аудиторій, оскільки у вас завжди є "випадкова" вибірка країн чи аудиторій - дані збираються не з усіх можливих країн чи аудиторій.

Секс, однак, є фіксованим (або принаймні трактується як фіксований). Якщо у вас є особи чоловічої чи жіночої статі, інших рівнів статі не залишилося (можуть бути деякі гендерні винятки, але це в основному ігнорується).

Або скажіть рівень освіти: Якщо ви запитуєте, чи є люди нижчої, середньої чи вищої освіти, то рівня не залишилося, тому ви не взяли "випадкову" вибірку всіх можливих освітніх рівнів (отже, це фіксований ефект).


2
+1 Чому голосування проти? Це цитата відомого статистика про моделювання випадкових ефектів; Наступний коментар досить прямолінійний і чітко визначений ...
usεr11852

3

Ви використовуєте змішані моделі, коли на основі проекту дослідження можна зробити обґрунтовані припущення щодо природи кореляції між спостереженнями та висновками на індивідуальному рівні чи умовних ефектах. Змішані моделі допускають специфікації випадкових ефектів, які є зручним поданням кореляційних структур, що виникають природним чином при зборі даних.

Найпоширеніший тип змішаної моделі - це випадкова модель перехоплення, яка оцінює прихований розподіл загальних констант, що мають 0-середнє, кінцеве дисперсійне нормальне розподіл у кластерах осіб, визначених у наборі даних. Цей підхід пояснює потенційно сотні заплутаних факторів, загальних для груп спостережень або кластерів, але різняться між кластерами.

Другий поширений тип змішаної моделі - це модель випадкових нахилів, яка, подібно до моделі випадкових перехоплень, оцінює прихований розподіл взаємодій передбачувача часу, який знову ж таки походить від 0-середнього, обмеженого нормального нормального розподілу в панельному дослідженні або кластерах спостережень, що вимірюються перспективно або поздовжньо.

cоr(Y1,Y2)=ρY1,Y2cоr(Yт,Yс)=ρ|т-с|Yт,Yст,сі 0 в іншому випадку. Результати не є однаковими, оскільки випадковий перехоплення змушує спостереження в кластерах бути позитивно пов'язаними, що майже завжди є обґрунтованим припущенням.

Індивідуальний рівень або умовні ефекти можуть протиставлятись рівню чисельності населення або граничним ефектам. Граничні ефекти представляють ефект у популяції від втручання чи скринінгу. Як приклад, втручання з метою підвищення дотримання норм щодо реабілітації наркотичних речовин може розглядати відвідування протягом 3 місяців у групі пацієнтів, прийнятих на різні стани. Тривалість використання може різнитися між пацієнтами і сильно прогнозувати дотримання семінару при більш тривалому використанні учасників, які мають більшу залежність від звикання та уникнення. Індивідуальний аналіз рівня може виявити, що дослідження є ефективним, незважаючи на те, що учасники з більшою залежністю не відвідували до отримання втручання і продовжували не відвідувати після втручання.

Граничні ефекти мають менш точний висновок через ігнорування однорідності між кластерами у часі чи просторі. Їх можна оцінити за допомогою узагальнених оціночних рівнянь або маргіналізації змішаних моделей.


2
+1, я б хотів прийняти 2 відповіді !. мій коментар до відповіді @ Марка також стосується вашої відповіді. що ви допомогли мені зрозуміти, як ми визначаємо "спостереження в кластерах"
Хайтао Дю,

2
@ hxd1011 Це випливає суворо із проекту дизайну. Будь-яка конструкція зі стратифікованими зразками або повторними заходами матиме незалежні дані. Це не стосується статистичного тестування. Повідомлення або принаймні перевірка випадкових ефектів може допомогти зрозуміти ступінь кореляції, МКК є прикладом такого заходу.
AdamO

0

Змішані ефекти слід використовувати, коли дані мають вкладену або ієрархічну структуру. Це фактично порушує припущення про незалежність вимірювань, оскільки всі вимірювання в одній групі / рівні співвідносяться. У випадку

"Якщо різні групи / види справді схожі. Скажімо, собаку і чоловічу собаку. Я думаю, що ми можемо захотіти використовувати стать як категоричну змінну в моделі"

стать буде змінним фактором та фіксованим ефектом, тоді як мінливість розмірів собак у статі є випадковим ефектом. Моя модель була б

response ~ sex + (1|size), data=data

Інтуїтивно, кроликів, собак та катів слід моделювати окремо, оскільки розміри собак та котів не співвідносяться, однак розмір двох собак є своєрідною "внутрішньовидовою" мінливістю.


Я особисто вважаю, що термін "вкладена або ієрархічна структура" є занадто загальним і мені важко визначити межі.
Haitao Du

Можливо, ти маєш рацію. Я думаю, що тоді LMM використовуються, коли припущення про IID порушено через якусь групування, наявну в даних.
marianess
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.