Змішана модель з 1 спостереженням на рівень


12

Я підхоплюю модель випадкових ефектів glmerдо деяких бізнес-даних. Метою є аналіз результатів продажів через дистриб'ютора з урахуванням регіональних відмінностей. У мене є такі змінні:

  • distcode: ідентифікатор дистриб'ютора, близько 800 рівнів
  • region: географічний ідентифікатор верхнього рівня (північ, південь, схід, захід)
  • zone: географія середнього рівня, що вкладається region, приблизно 30 рівнів
  • territory: географія низького рівня, закладена в межах zone, близько 150 рівнів

Кожен дистриб'ютор працює лише на одній території. Складна частина полягає в тому, що це узагальнені дані з однією точкою даних на дистрибутора. Таким чином, у мене є 800 точок даних, і я намагаюся підходити (принаймні) до 800 параметрів, хоча і в регульованому порядку.

Я встановив модель наступним чином:

glmer(ninv ~ 1 + (1|region/zone/territory) + (1|distcode), family=poisson)

Це працює без проблем, хоча друкує примітку:

Кількість рівнів групуючого коефіцієнта для випадкових ефектів дорівнює n, кількості спостережень

Це розумна справа? Я отримую кінцеві оцінки всіх коефіцієнтів, і АПК також не є необґрунтованим. Якщо я спробую пуассоновий GLMM із посвідченням ідентичності, AIC набагато гірше, тому посилання журналу є принаймні хорошою відправною точкою.

Якщо я побудую відповідні значення та відповідь, я отримаю те, що по суті є ідеальним пристосуванням, яке, мабуть, полягає в тому, що я маю одну точку даних на кожного розповсюджувача. Це розумно, чи я роблю щось абсолютно нерозумно?

Це використання даних за один місяць. Я можу отримувати дані протягом декількох місяців і отримувати певну тиражу таким чином, але мені доведеться додати нові терміни для зміни місяця в місяць та можливих взаємодій, правильно?


ETA: Я знову запустив вищевказану модель, але без familyаргументів (тож просто гауссова LMM, а не GLMM). Тепер lmerдав мені таку помилку:

Помилка в (функція (fr, FL, старт, REML, багатослівна): Кількість рівнів групуючого коефіцієнта для випадкових ефектів має бути меншою за кількість спостережень

Тож я б здогадався, що я не роблю щось розумне, оскільки зміна сім'ї не повинно мати наслідків. Але питання зараз, чому це працювало в першу чергу?

Відповіді:


4

Я категорично не погоджуюся з практикою встановлення змішаної моделі, коли у вас така ж кількість груп, як і спостереження за концептуальною ознакою, немає "груп", а також з обчислювальних підстав, як ваша модель повинна мати ідентифіковані проблеми - у випадку щонайменше ЛММ. (Я працюю виключно з LMM, це також може бути трохи упереджено. :))

уN(Хβ,ZDZТ+σ2Я)Dσ2

(Я не розумію, що ви маєте на увазі під "розумним" AIC. AIC слід обчислити в тому сенсі, що, незважаючи на перевибір даних, ви все ще "щось обчислюєте".)

glmerуХβХβ>0glmer

Концептуальна частина: Я думаю, що це трохи "суб'єктивніше", але трохи прямолінійніше також. Ви використовуєте Змішаний Eff. моделей, тому що ви по суті визнали, що у вашій помилці є якась структура, що стосується групи. Тепер, якщо у вас є стільки груп, скільки точок даних, структури не видно. Будь-які відхилення у вашій структурі помилок LM, які можна було б віднести до "групування", тепер відносяться до конкретної точки спостереження (і як таку ви отримуєте надмірно встановлену модель).

Загалом групи, що мають одиночне спостереження, як правило, дещо безладні; цитувати Д.Батеса із списку розсилки r-sig-змішаних моделей:

Думаю, ви побачите, що різниця в моделі підходить, незалежно від того, включаєте ви групи виключень спостереження чи виключаєте їх дуже мало. Спробуйте і подивіться.


1
правильно, що це, мабуть, не має особливого сенсу в лінійній обстановці, але може бути дуже корисним при регресії Пуассона. Я побачу, чи зможу я віднайти посилання на те, що сказав Бен Болкер на цю тему (він один із розробників lme4 разом із Дугом Бейтсом).
Девід Дж. Харріс

Так, як я вже говорив, мабуть, я упереджено думаю про ЛММ, і я коментував "концептуальну частину". Я пояснив, чому це все-таки спрацьовує у випадку, glmerхоча (не дивлячись на те, що я цим не надто задоволений).
usεr11852

8

Один рівень на спостереження може бути дуже корисним, якщо ви перерозподілили дані підрахунку як змінну відповіді. Це еквівалентно тому, що ви очікуєте, що дані ваших підрахунків будуть надходити від логмального розподілу Пуассона, тобто, що лямбда-параметр розподілу Пуассона не повністю визначається змінними передбачувача у вашій моделі та що можливості розподіляються логічно.

Бен Болкер, один із розробників lme4, зробив із цим два приклади, подібні до навчальних посібників. Перший, із синтетичними даними, переходить до трохи детальніше. Ви можете знайти PDF-файл тут . Він також провів дослідницький аналіз даних з реальними даними, що включають сови (pdf та код R, доступний тут ).


1
+1. Я згоден з тим, що ти кажеш. Як я вже згадував у моїй посаді: « над дисперсією (...), як ви" обійти "проблему того, як багато груп , як спостереження. » Дякую за створення кращої точки glmerв концептуальному порядку.
usεr11852

1
Дякуємо за посилання! Прочитавши їх і ознайомившись детальніше з приведеними значеннями з моєї моделі, я маю краще уявлення про те, що відбувається. Я фактично не думаю, що те, що робить Бен, підходить для мого аналізу. Він використовує змінну рівня спостереження, щоб дозволити перевищення дисперсії, тому це як ефект неприємності. Для мого аналізу distributorє інтерес, який цікавить: я хочу побачити, як дистриб'ютори виконують відносно один одного, коли допускаються інші змінні. Таким чином, це більше порівняно зі звичайною лінійною змішаною моделлю, де надмірне обладнання відповідає справжньою проблемою.
Hong Ooi
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.