Стратегія вирішення відповідної моделі для підрахунку даних


16

Яка відповідна стратегія для вирішення, яку модель використовувати для даних лічильників? У мене є кількість даних, які мені потрібні для моделювання як багаторівневої моделі, і мені було рекомендовано (на цьому веб-сайті), що найкращий спосіб зробити це через помилки або MCMCglmm. Однак я все ще намагаюся дізнатися про байєсівську статистику, і я подумав, що спершу слід спробувати вписати свої дані як узагальнені лінійні моделі та проігнорувати вкладені структури даних (просто так я можу отримати розпливчасте уявлення про те, чого очікувати).

Близько 70% даних дорівнюють 0, а співвідношення дисперсії до середнього - 33. Отже, дані досить розсіяні.

Спробувавши декілька різних варіантів (включаючи пуассону, негативну біноміальну, квазі та нульову завищену модель), я бачу дуже незначну послідовність у результатах (відмінність від усього суттєва до нічого не має значного значення).

Як я можу прийняти обгрунтоване рішення про те, який тип моделі вибрати на основі інфляції та надмірної дисперсії? Наприклад, як я можу зробити висновок про те, що квазі-пуассон є більш підходящим, ніж негативний двочлен (або навпаки), і як я можу знати, що використовуючи або справились адекватно (чи ні) із зайвими нулями? Аналогічно, як я оцінюю, що більше не буде надмірної дисперсії, якщо використовується модель із заниженою нулем? або як я повинен вирішити між нульовим завищеним пуассоном і нульовим завищеним негативним двочленним?

Відповіді:


9

Ви завжди можете порівнювати підрахунки моделей, дивлячись на їхні прогнози (бажано, щоб утримувати набір). Дж. Скотт Лонг обговорює це графічно (будуючи прогнозовані значення проти фактичних). Його текстова книга тут описується докладно, але ви також можете переглянути 6.4 цього документа .

Ви можете порівнювати моделі за допомогою AIC або BIC, а також є тест під назвою тест Voung, з яким я не дуже знайомий, але можна порівняти нульовий надутий з не вкладеними моделями. Ось документ Сас, який коротко описує його на сторінці 10, щоб розпочати роботу. Це також міститься в R- проводці


Дякую за пораду. Я обов'язково спробую вивчити прогнози, перш ніж зважитися на модель
Джордж Майклідес

5

Кілька речей, які слід додати до того, що сказав B_Miner:

1) Ви писали, що моделі варіювали від "всього значущого" до "нічого істотного", але це не гарний спосіб порівняння моделей. Перегляньте натомість прогнозовані значення (як запропонував B_miner) та розміри ефектів.

2) Якщо 70% даних дорівнюють 0, я не можу уявити, що модель без 0 інфляції підходить.

3) Навіть якщо ви не хочете їхати в Bayesian, ви можете використовувати GLMM в SAS (PROC GLIMMIX або NLMIXED) і в R (різні пакети). Ігнорування вкладеної природи може зіпсувати все.

4) Загалом, вирішити, яка модель найкраща - це мистецтво, а не наука. Існують статистичні дані, але вони є керівництвом для судження. Просто дивлячись на те, що ви написали, я б сказав, що модель ZINB виглядає правильно


Намір полягає в тому, що я врешті спробую моделювати це за допомогою байєсів, але я намагався зрозуміти, як я можу прийняти рішення, перш ніж підходити до моделей. Якщо є ймовірність, що ігнорування вкладеної природи даних змінює щось, я спершу спробую їх GLMM. Єдиний пакет для R, про який я знаю, що може зробити багаторівневий ZINB - це glmmADMB. Чи рекомендуєте ви будь-які інші пакунки?
Джордж Майхелідес

4

Я розумію, що розподілення з нульовим рівнем слід використовувати, коли існує обгрунтування певних елементів для отримання підрахунків нулів проти будь-яких інших підрахунків. Іншими словами, нульовий надутий розподіл повинен використовуватися, якщо нулі виробляються окремим процесом, ніж той, який виробляє інші. Якщо у вас немає обґрунтування цього, зважаючи на наддисперсію у вашій вибірці, я пропоную використовувати негативний біноміальний розподіл, оскільки він точно відображає величину нулів, і він представляє незастережену неоднорідність, вільно оцінюючи цей параметр. Як було сказано вище, книга Скотта Лонга є чудовою довідкою.


Дякую за вашу відповідь. Дійсно, я почав замислюватися про те, чи можуть різні елементи створювати 0 у порівнянні з будь-яким іншим підрахунком, і я насправді думаю, що є пара моїх змінних, які пояснювали б лише 0s проти будь-якого іншого рахунку. Тому, ймовірно, я повинен хоча б спробувати ZINB спочатку, щоб побачити, чи мої ці змінні працюють так, як я б очікував, що вони працюють.
Джордж Майхелідес

3

Абсолютно погодився з тим, що сказав Метт, спочатку потрібно подумати про передумови даних ... Не має сенсу підходити до моделей ZI, коли у населення немає жодних тригерів! Перевага моделей NB полягає в тому, що вони можуть демонструвати незастережену неоднорідність у гамма-розподіленій випадковій змінній. Технічно: Основними причинами надмірної дисперсії є безперервна гетерогенність та нульова інфляція. Я не вірю, що ваша придатність погана. Тим не менш, щоб отримати корисність, завжди слід порівнювати Девіант із ступенями свободи вашої моделі. Якщо відхилення D вище n- (p + 1) (це df), слід шукати кращу модель. Хоча здебільшого немає кращих моделей, ніж ZINB, щоб позбутися від перенапруження.

якщо ви хочете встановити ZINB з R, дістаньте пакет psclі спробуйте скористатися командою zeroinfl(<model>, dist=negative). Для отримання додаткової інформації дивіться ?zeroinflпісля завантаження необхідного пакету!

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.