Пакет R / Stata для нульового усіченого негативного біноміального GEE?


13

це моє перше повідомлення. Я щиро вдячний цій громаді.

Я намагаюся проаналізувати дані поздовжнього підрахунку, які є нульовими (усі ймовірність того, що змінна відповіді = 0 дорівнює 0), і середнє значення! = Дисперсія, тому було вибрано негативний біноміальний розподіл по пуассону.

Функції / команди, які я виключив:

R

  • функція gee () в R не враховує нульове укорочення і негативний біноміальний розподіл (навіть не з завантаженим пакетом MASS)
  • glm.nb () в R не допускає різних кореляційних структур
  • vglm () з пакету VGAM може використовувати сімейство posnegbinomial, але він має таку ж проблему, що і команда ztnb Stata (див. нижче), оскільки я не можу повторно налаштувати моделі за допомогою незалежної кореляційної структури.

Stata

  • Якщо дані не були поздовжніми, я міг би просто використовувати пакети Stata ztnb для запуску свого аналізу, АЛЕ ця команда передбачає, що мої спостереження не залежать.

Я також виключав GLMM з різних методологічних / філософських причин.

Поки що я зупинився на команді xtgee Stata (так, я знаю, що xtnbreg також робить те ж саме), що враховує як не залежну від кореляційної структури, так і сімейство недвохчленних, але не нульове усічення. Додатковою перевагою використання xtgee є те, що я також можу обчислити значення qic (за допомогою команди qic), щоб визначити найкращі відповідні структури кореляції для моїх змінних відповідей.

Якщо в R або Stata є пакет / команда, які можуть враховувати 1) сімейство nbinomial, 2) GEE і 3) нульове усічення, я б вмираю, щоб знати.

Я дуже вдячний за будь-які ідеї, які у вас є. Дякую.

-Кейсі

Відповіді:


12

Для R два варіанти пам’яті, обидва з яких я лише в кращому випадку знайомий.

Перший - це psclпакет, який може помістити нульові усілені надуті та перешкодні моделі дуже приємно, гнучко. У psclпакеті пропонується використовувати sandwichпакет, який надає "Модельні надійні стандартні оцінки помилок для даних поперечного перерізу, часових рядів і поздовжніх даних". Таким чином, ви можете підходити до вашої моделі підрахунку, а потім використовувати sandwichпакет для оцінки відповідної матриці коваріації для залишків з урахуванням поздовжнього характеру даних.

Другим варіантом може бути пошук geepackпакету, який виглядає так, що він може робити те, що ви хочете, але тільки для негативної біноміальної моделі з відомою тетою, оскільки він буде відповідати будь-якому типу GLM, який glm()може функція R (тому використовуйте сімейну функцію від MASS) .

Третій варіант підняв голову: gamlssі це пакет додатків gamlss.tr. Останній включає в себе функцію, gen.trun()яка може gamlss()гнучко перетворювати будь-який з розподілів, підтримуваних у, в усічений розподіл - ви можете вказати лівий усічений в 0 негативний біноміальний розподіл, наприклад. gamlss()сама по собі включає підтримку випадкових ефектів, які повинні піклуватися про поздовжній характер даних. Однак це не відразу зрозуміло, якщо вам доведеться використовувати принаймні одну плавну функцію коваріату в моделі або ви можете просто моделювати все так, як лінійні функції, як у GLM.


Пакет pscl, я вважаю, підходить лише для моделей із заниженими нулями та перешкодами. Моделі перешкод включають в себе як ліво-усічений компонент, так і правий цензурований компонент перешкоди. Я не знаю, як і навіть якщо мені вдасться запустити модель перешкод без компонента перешкоди, але я загляну в пакет «сендвік». Що стосується пакета geepack, то, здається, він має таку ж проблему, що і пакет geepack; коли я вкажу сімейство "negative.binomial" (від MASS), не вказуючи тету, воно запитає тету. Однак, коли я вкажу тета-значення, воно виплюне помилку, сказавши, що це нерозпізнана сім'я.
Іріс Цуї

@Casey - вибачте, я неправильно прочитав ваші вимоги щодо нульового усікання. Сором, що джипак не працює з цією сімейною функцією. Якщо я придумаю щось інше, я тут оновлю.
Відновіть Моніку - Г. Сімпсон

@Casey Я додав примітку про gamlssпакет, який також може відповідати рахунку в R.
Відновіть Моніку - Г. Сімпсон

Приймаю вашу відповідь через численні пропозиції щодо ресурсів та функцій, які покращили моє розуміння. Здається, що "gamlss" був би можливим способом вирішити мою проблему, але, оскільки я насправді нестатист, в даний момент я не маю передумови математики і часу, щоб відкрити цю банку глистів прямо зараз (але можливо, зрештою я і буду). Як уже згадувалося в іншому коментарі, принаймні, для моїх даних, здається, що ігнорування нульового скорочення не сильно змінить мої оцінки та помилки std. Для моєї призначеної аудиторії, я вірю, що nbinomial GEE буде добре. Спасибі!
Іріс Цуї

9

Хм, гарне перше запитання! Я не знаю пакету, який відповідає вашим точним вимогам. Я думаю, що xtgee Stata - це хороший вибір, якщо ви також вкажете vce(robust)варіант надати стандартні помилки Huber-White або vce(bootstrap)якщо це практично. Будь-який із цих варіантів забезпечить послідовну оцінку стандартних помилок, незважаючи на неправильну специфікацію моделі, яку ви матимете, ігноруючи нульове скорочення.

Це залишає питання про те, який ефект від ігнорування нульового відсічення матиме на оцінку, що цікавить вас. Варто швидкого пошуку, щоб дізнатися, чи є відповідна література з цього питання взагалі, тобто необов'язково в контексті GEE - я би подумав, що ви можете з упевненістю припустити, що будь-які такі результати будуть доречні і у випадку GEE. Якщо ви нічого не можете знайти, ви завжди зможете змоделювати дані з нульовим усіченням та відомими оцінками ефектів та оцінювати зміщення за допомогою моделювання.


1
Я переконався в оцінці надійних стандартних помилок. Також у книзі "Моделі змішаних ефектів та розширення в екології з R" Zuur, et al, 2009, на сторінці 261, вони згадують, "якщо середнє значення змінної відповіді порівняно велике, ігноруючи проблему усічення, то застосовуючи Пуассонова або негативна двочленна (NB) узагальнена лінійна модель (GLM), навряд чи викличе проблему ". На щастя, засоби моїх змінних відповідей є великими, тому я відчуваю себе трохи зручніше деприоритизувати нульове скорочення порівняно з GEE та негабіноміальними аспектами моїх регресій.
Іріс Цуї

Здається, ви вже знаєте більше на цю тему, ніж я! Або хтось інший на цьому сайті, судячи з відсутності інших відповідей.
onestop

Це трохи неймовірно; хто знав, що наддисперсні дані про поздовжнє підрахунок буде так важко проаналізувати (не роблячи GLMM, що я ще навіть не розглядав)? Якби тільки мої дані були завищені нулем, це була б інша історія.
Іріс Цуї

5

У мене в дисертації був такий самий випуск. У Stata я щойно створив власну програму .ado з двома дзвінками до xtgee.

Для цього я знайшов корисні слайди / програми «Моделювання витрат на охорону здоров’я» та « Партха Деб», Віллард Меннінг та Едвард Нортон. Вони не говорять про поздовжні дані, але це корисна відправна точка.


1

Я шукав відповіді на тлумачення glmmADMB і побачив твій пост. Я знаю, що це було давно, але я можу відповісти.

Загляньте в пакет glmmADMB під час використання перешкод. Ви повинні розділити на два аналізи своїх даних: один з них обробляє лише дані, що не мають нуля. Ви можете додати змішані ефекти та вибрати розподіл. Умова полягає в тому, що дані мають бути завищені нулем, і я не знаю, чи відповідає це вашим вимогам! У будь-якому разі, я сподіваюся, ви це вже давно дізналися!

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.