Змішана модель проти об'єднаних стандартних помилок для досліджень на кількох сайтах - Чому змішана модель настільки ефективніша?


16

У мене є набір даних, що складається з серії щомісячних підрахунків справ "зламана палиця" з кількох сайтів. Я намагаюся отримати єдину підсумкову оцінку з двох різних методик:

Методика 1: Встановіть "зламану палицю" за допомогою Poisson GLM зі змінною індикатора 0/1 та за допомогою змінної часу та часу ^ 2 для контролю за тенденціями у часі. Оцінка індикаторної змінної 0/1 та SE об'єднані, використовуючи досить прямий метод "моментів" вгору або вниз, або використовуючи пакет tlnise в R, щоб отримати оцінку "Баєса". Це схоже на те, що роблять Пенг і Домінічі, якщо вони мають дані про забруднення повітря, але з меншою кількістю ділянок (~ десяток).

Техніка 2: Відмовитись від певного сайту-контролю для тенденцій у часі та використовувати лінійну змішану модель. Зокрема:

lmer(cases ~ indicator + (1+month+I(month^2) + offset(log(p)), family="poisson", data=data)

Моє запитання стосується стандартних помилок, які випливають із цих оцінок. Стандартна помилка Technique 1, яка фактично використовує щотижневий, а не щомісячний встановлений час, і, таким чином, повинна мати більш високу точність, має стандартну помилку за оцінкою ~ 0,206 для підходу методу моментів і ~ 0,306 для tlnise.

Метод lmer дає стандартну похибку ~ 0,09. Оцінки ефектів досить близькі, тому, схоже, вони не занулюються в різні зведені оцінки настільки, наскільки змішана модель набагато ефективніша.

Це щось розумне очікувати? Якщо так, то чому змішані моделі настільки ефективніші? Це загальне явище чи специфічний результат цієї моделі?


На це запитання важко відповісти, не знаючи, яка саме модель вам підходить у вашій техніці 1. Ви згадуєте 3 можливості, але, наскільки я можу сказати, ніколи не зупиняйтесь на одній. Потім ви скажете, що "стандартна помилка техніки [...] - це ~ 0.206." Саме для якої моделі це стандартна помилка? Чи опублікуєте ви синтаксис, який ви використовували для встановлення цієї моделі, як це зробили для Technique 2? Ще краще було б надати відтворюваний приклад (не обов’язково ваш початковий набір даних), до якого ми могли б самі підходити обидві моделі.
Джейк Вестфалл

@JakeWestfall Ви маєте рацію, коли я вперше написав це, це було своєрідним питанням свідомості, коли проблема розвивалася. Я зроблю кілька редагувань і побачу, чи це може бути корисніше. На жаль, код кудись
відплив

Зробили невелику очистку - дизайн моделей використовує ті самі змінні. На жаль, код, дані тощо є на іншій машині, і я на конференції. Я думаю, що основне питання може бути зведене до "Оцінки декількох сайтів: чи змішані моделі завжди / часто ефективніші, ніж об'єднання?"
Фоміт

Відповіді:


5

Я знаю, що це давнє запитання, але воно відносно популярне і має просту відповідь, тому, сподіваємось, воно буде корисним для інших у майбутньому. Для взяття глибший, подивіться на курсі Крістофа Ліпперта на лінійних змішаних моделях , яка розглядає їх в контексті генома дослідження асоціації тут . Зокрема, див. Лекцію 5 .

Причина того, що змішана модель працює набагато краще, полягає в тому, що вона розроблена так, щоб враховувати саме те, що ви намагаєтесь контролювати: структура населення. "Популяції" у вашому дослідженні - це різні сайти, які використовують, наприклад, дещо різні, але послідовні реалізації одного і того ж протоколу. Крім того, якщо суб'єктами вашого дослідження є люди, люди, об'єднані з різних сайтів, мають меншу ймовірність споріднення, ніж люди з того самого сайту, тому кровна спорідненість також може грати певну роль.

N(Y|Хβ,σ2)КN(Y|Хβ+Zу,σ2Я+σг2К)

Оскільки ви намагаєтесь чітко контролювати структуру популяції, тому не дивно, що лінійна змішана модель перевершила інші методи регресії.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.