Мінімальний розмір вибірки на кластер у моделі випадкових ефектів

10

Чи існує раціональна кількість спостережень на кластер у моделі випадкових ефектів? У мене розмір вибірки 1500 з 700 кластерами, змодельованими як обмінний випадковий ефект. У мене є можливість об'єднати кластери, щоб створити менше, але більших кластерів. Цікаво, як я можу вибрати мінімальний розмір вибірки на кластер, щоб мати значущі результати при прогнозуванні випадкового ефекту для кожного кластеру? Чи є хороший папір, який пояснює це?

— Футбол
джерело

13

TL; DR : Мінімальний розмір вибірки на кластер у моделі зі змішаним ефектом становить 1, за умови, що кількість кластерів є достатньою, а частка однотонних кластерів не "надто висока"

Більш дрібна версія:

Загалом, кількість кластерів важливіше, ніж кількість спостережень на кластер. З 700, явно, у вас там немає проблем.

Невеликі розміри кластерів є досить поширеними, особливо в дослідженнях з суспільствознавства, які слідують за стратифікованими моделями вибірки, і існує низка досліджень, яка досліджувала розмір вибірки на рівні кластера.

У той час як збільшення розміру кластеру збільшує статистичну потужність для оцінки випадкових ефектів (Austin & Leckie, 2018), невеликі розміри кластерів не призводять до серйозних упереджень (Bell et al, 2008; Clarke, 2008; Clarke & Wheaton, 2007; Maas & Hox , 2005). Таким чином, мінімальний розмір вибірки на кластер - 1.

Зокрема, Bell et al. (2008) провели імітаційне дослідження в Монте-Карло з частками однотонних кластерів (кластерів, що містять лише одне спостереження), коливаючись від 0% до 70%, і встановили, що за умови, що кількість кластерів була великою (~ 500) малі розміри кластерів майже не впливали на зміщення та контроль помилок типу 1.

Вони також повідомили про дуже мало проблем з конвергенцією моделі за будь-яким із своїх сценаріїв моделювання.

Для конкретного сценарію в ОП я б запропонував запустити модель з 700 кластерами в першу чергу. Якщо б не було явної проблеми з цим, я би не захотів об'єднати кластери. Я провів просте моделювання в R:

Тут ми створюємо кластерний набір даних із залишковою дисперсією 1, єдиним фіксованим ефектом також 1, 700 кластерів, з яких 690 - одиночні та 10 мають лише 2 спостереження. Ми виконуємо моделювання 1000 разів і спостерігаємо за гістограмами розрахункових фіксованих та залишкових випадкових ефектів.

> set.seed(15)
> dtB <- expand.grid(Subject = 1:700, measure = c(1))
> dtB <- rbind(dtB, dtB[691:700, ])
> fixef.v <- numeric(1000)
> ranef.v <- numeric(1000)
> for (i in 1:1000) { 
   dtB$x <- rnorm(nrow(dtB), 0, 1)
   dtB$y <- dtB$Subject/100 + rnorm(nrow(dtB), 0, 1) + dtB$x * 1

   fm0B <- lmer(y ~ x + (1|Subject), data = dtB)
   fixef.v[i] <- fixef(fm0B)[[2]]
   ranef.v[i] <- attr(VarCorr(fm0B), "sc")
 }
> hist(fixef.v, breaks = 15)
> hist(ranef.v, breaks = 15)

Як бачимо, фіксовані ефекти дуже добре оцінені, тоді як залишкові випадкові ефекти виглядають трохи упередженими вниз, але не так різко:

> summary(fixef.v)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 0.6479  0.9439  0.9992  1.0005  1.0578  1.2544 
> summary(ranef.v)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 0.2796  0.7745  0.9004  0.8993  1.0212  1.4837

ОП конкретно згадує про оцінку випадкових ефектів на рівні кластера. У моделюванні, описаному вище, випадкові ефекти створюються просто як значення Subjectідентифікатора кожного (зменшене на коефіцієнт 100). Очевидно, що вони зазвичай не розподіляються, що є припущенням лінійних моделей змішаних ефектів, проте ми можемо витягти (умовні режими) ефекти кластерного рівня та побудувати їх проти фактичних Subjectідентифікаторів:

> re <- ranef(fm0B)[[1]][, 1]
> dtB$re <- append(re, re[691:700])
> hist(dtB$re)
> plot(dtB$re, dtB$Subject)

Гістограма дещо відходить від нормальності, але це пов'язано з тим, як ми моделювали дані. Все ще існує розумна залежність між оціненими та фактичними випадковими ефектами.

Список літератури:

Пітер К. Остін та Джордж Лекі (2018) Вплив кількості кластерів та розміру кластерів на статистичну потужність та коефіцієнти помилок типу I при тестуванні компонентів дисперсії випадкових ефектів у багаторівневих моделях лінійної та логістичної регресії, Журнал статистичних обчислень та моделювання, 88: 16, 3151-3163, DOI: 10.1080 / 00949655.2018.1504945

Белл, Б.А., Феррон, Дж. М., та Кромрей, Дж. Д. (2008). Розмір кластерів у багаторівневих моделях: вплив розріджених структур даних на точкові та інтервальні оцінки в дворівневих моделях . Праці JSM, розділ про методи дослідження опитування, 1122-1129.

Кларк, П. (2008). Коли кластеризацію на рівні групи можна ігнорувати? Багаторівневі моделі проти однорівневих моделей із обмеженими даними . Журнал епідеміології та здоров'я населення, 62 (8), 752-758.

Clarke, P., & Wheaton, B. (2007). Усунення розрідженості даних у контекстному дослідженні населення за допомогою кластерного аналізу для створення синтетичних мікрорайонів . Соціологічні методи та дослідження, 35 (3), 311-351.

Maas, CJ, & Hox, JJ (2005). Достатній розмір зразків для багаторівневого моделювання . Методологія, 1 (3), 86–92.

— Роберт Лонг
джерело

1

+1 чудова відповідь. Пов’язано: У мене виникли проблеми з логістичними багаторівневими моделями, де біля половини кластерів є лише 1 спостереження. Дивіться тут: stats.stackexchange.com/a/358460/130869

— Марк Білий

4

У змішаних моделях випадкові ефекти найчастіше оцінюються за допомогою емпіричної методології Байєса. Особливістю цієї методології є усадка. А саме, оцінені випадкові ефекти зменшуються до загального середнього значення моделі, описаної частиною з фіксованими ефектами. Ступінь усадки залежить від двох компонентів:

Величина дисперсії випадкових ефектів порівняно з величиною дисперсії доданків помилок. Чим більша дисперсія випадкових ефектів по відношенню до дисперсії термінів помилки, тим менша ступінь усадки.
Кількість повторних вимірювань у кластерах. Випадкові оцінки ефектів кластерів з більш повторними вимірюваннями зменшуються менше до загальної середньої величини порівняно з кластерами з меншою кількістю вимірювань.

У вашому випадку другий момент є більш актуальним. Однак зауважте, що запропоноване рішення об’єднання кластерів може вплинути і на першу точку.

— Димитріс Різопулос
джерело