TL; DR : Мінімальний розмір вибірки на кластер у моделі зі змішаним ефектом становить 1, за умови, що кількість кластерів є достатньою, а частка однотонних кластерів не "надто висока"
Більш дрібна версія:
Загалом, кількість кластерів важливіше, ніж кількість спостережень на кластер. З 700, явно, у вас там немає проблем.
Невеликі розміри кластерів є досить поширеними, особливо в дослідженнях з суспільствознавства, які слідують за стратифікованими моделями вибірки, і існує низка досліджень, яка досліджувала розмір вибірки на рівні кластера.
У той час як збільшення розміру кластеру збільшує статистичну потужність для оцінки випадкових ефектів (Austin & Leckie, 2018), невеликі розміри кластерів не призводять до серйозних упереджень (Bell et al, 2008; Clarke, 2008; Clarke & Wheaton, 2007; Maas & Hox , 2005). Таким чином, мінімальний розмір вибірки на кластер - 1.
Зокрема, Bell et al. (2008) провели імітаційне дослідження в Монте-Карло з частками однотонних кластерів (кластерів, що містять лише одне спостереження), коливаючись від 0% до 70%, і встановили, що за умови, що кількість кластерів була великою (~ 500) малі розміри кластерів майже не впливали на зміщення та контроль помилок типу 1.
Вони також повідомили про дуже мало проблем з конвергенцією моделі за будь-яким із своїх сценаріїв моделювання.
Для конкретного сценарію в ОП я б запропонував запустити модель з 700 кластерами в першу чергу. Якщо б не було явної проблеми з цим, я би не захотів об'єднати кластери. Я провів просте моделювання в R:
Тут ми створюємо кластерний набір даних із залишковою дисперсією 1, єдиним фіксованим ефектом також 1, 700 кластерів, з яких 690 - одиночні та 10 мають лише 2 спостереження. Ми виконуємо моделювання 1000 разів і спостерігаємо за гістограмами розрахункових фіксованих та залишкових випадкових ефектів.
> set.seed(15)
> dtB <- expand.grid(Subject = 1:700, measure = c(1))
> dtB <- rbind(dtB, dtB[691:700, ])
> fixef.v <- numeric(1000)
> ranef.v <- numeric(1000)
> for (i in 1:1000) {
dtB$x <- rnorm(nrow(dtB), 0, 1)
dtB$y <- dtB$Subject/100 + rnorm(nrow(dtB), 0, 1) + dtB$x * 1
fm0B <- lmer(y ~ x + (1|Subject), data = dtB)
fixef.v[i] <- fixef(fm0B)[[2]]
ranef.v[i] <- attr(VarCorr(fm0B), "sc")
}
> hist(fixef.v, breaks = 15)
> hist(ranef.v, breaks = 15)
Як бачимо, фіксовані ефекти дуже добре оцінені, тоді як залишкові випадкові ефекти виглядають трохи упередженими вниз, але не так різко:
> summary(fixef.v)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.6479 0.9439 0.9992 1.0005 1.0578 1.2544
> summary(ranef.v)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.2796 0.7745 0.9004 0.8993 1.0212 1.4837
ОП конкретно згадує про оцінку випадкових ефектів на рівні кластера. У моделюванні, описаному вище, випадкові ефекти створюються просто як значення Subject
ідентифікатора кожного (зменшене на коефіцієнт 100). Очевидно, що вони зазвичай не розподіляються, що є припущенням лінійних моделей змішаних ефектів, проте ми можемо витягти (умовні режими) ефекти кластерного рівня та побудувати їх проти фактичних Subject
ідентифікаторів:
> re <- ranef(fm0B)[[1]][, 1]
> dtB$re <- append(re, re[691:700])
> hist(dtB$re)
> plot(dtB$re, dtB$Subject)
Гістограма дещо відходить від нормальності, але це пов'язано з тим, як ми моделювали дані. Все ще існує розумна залежність між оціненими та фактичними випадковими ефектами.
Список літератури:
Пітер К. Остін та Джордж Лекі (2018) Вплив кількості кластерів та розміру кластерів на статистичну потужність та коефіцієнти помилок типу I при тестуванні компонентів дисперсії випадкових ефектів у багаторівневих моделях лінійної та логістичної регресії, Журнал статистичних обчислень та моделювання, 88: 16, 3151-3163, DOI: 10.1080 / 00949655.2018.1504945
Белл, Б.А., Феррон, Дж. М., та Кромрей, Дж. Д. (2008). Розмір кластерів у багаторівневих моделях: вплив розріджених структур даних на точкові та інтервальні оцінки в дворівневих моделях . Праці JSM, розділ про методи дослідження опитування, 1122-1129.
Кларк, П. (2008). Коли кластеризацію на рівні групи можна ігнорувати? Багаторівневі моделі проти однорівневих моделей із обмеженими даними . Журнал епідеміології та здоров'я населення, 62 (8), 752-758.
Clarke, P., & Wheaton, B. (2007). Усунення розрідженості даних у контекстному дослідженні населення за допомогою кластерного аналізу для створення синтетичних мікрорайонів . Соціологічні методи та дослідження, 35 (3), 311-351.
Maas, CJ, & Hox, JJ (2005). Достатній розмір зразків для багаторівневого моделювання . Методологія, 1 (3), 86–92.