Як боротися із завищеною дисперсією в пуассоновій регресії: квазі-ймовірність, негативна біноміальна GLM або випадковий ефект на рівні предмета?


12

Я зіткнувся з трьома пропозиціями розібратися із завищеною дисперсією змінної реакції Пуассона та всієї стартової моделі з фіксованими ефектами:

  1. Використовуйте квазі-модель;
  2. Використовуйте негативний біноміальний GLM;
  3. Використовуйте змішану модель з предметним випадковим ефектом.

Але що насправді вибрати, і чому? Чи є серед них фактичний критерій?


Квазі-модель розглядає параметр масштабу / дисперсії як параметр неприємності і надає СЕ для IRR, розширених цією неоднорідністю, тоді як негативні біноміальні ІЧР залежать від параметра масштабу. Змішана модель моделює різний ефект: індивідуальний рівень чи умовний ефект (і), тоді як негативні біноміальні та квазіпоасонні моделі є граничними моделями. Тому вони не оцінюють одне і те ж.
АдамО

Гаразд, що насправді вибрати, і які критерії прийняти це рішення?
Брайан

Я думаю, ви б обрали Quasipoisson, якби (незалежно від даних) ви знаєте, що модель Пуассона оцінює тенденцію, яка вас цікавить, але дизайн або аналіз даних точно не відповідають припущенню дисперсії. Ви б використовували негативну біноміальну модель, якщо б у вас були вагомі підстави вважати, що ймовірнісна модель насправді є негативною двочленною, і вам потрібно насправді передбачити гетеросцедастичність, а не робити висновок про тенденцію. Нарешті, ви використовуєте змішану модель, якщо хочете дізнатися вплив впливу на людину, а не на популяцію (тобто ніколи не використовуйте токсикологію).
АдамО

Я не погоджуюся з @AdamO wrt "змішаною моделлю ... вплив впливу на ... індивіда, а не на населення" . Я розумію, що змішані моделі кількісно оцінюють ефекти предмета, а потім інтегрують їх. По суті, це пояснює псевдореплікацію (декілька заходів з одного предмета) з ваших оцінок параметрів, що формується в об'єктивних оцінках параметрів для населення (а не для окремої особи). Я постійно використовую змішані моделі з цієї причини ... тож сподіваюся, що я не помиляюся з цього приводу!
RTbecard

Відповіді:


12

Пуассонова регресія - це просто ГЛМ:

Люди часто говорять про параметричне обґрунтування застосування пуассонової регресії. Насправді регресія Пуассона - це просто ГЛМ. Це означає, що регресія Пуассона виправдана для будь-якого типу даних (підрахунків, рейтингів, балів іспитів, бінарних подій тощо), коли виконуються два припущення: 1) журнал середнього результату - це лінійна комбінація предикторів і 2) дисперсія від результату дорівнює середньому . Ці дві умови відповідно називаються середньою моделлю та середньо-дисперсійною залежністю.

Припущення про середню модель можна дещо послабити, використовуючи складний набір коригувань для прогнозів. Це приємно, оскільки функція зв'язку впливає на інтерпретацію параметрів; тонка інтерпретація робить різницю між відповіддю на наукове запитання та повним ухиленням від споживачів вашого статистичного аналізу. В іншому посту SE я обговорюю корисність log-перетворень для інтерпретації.

Однак виявляється, що друге припущення (середньо-дисперсійне співвідношення) має сильний вплив на умовиводи. Якщо співвідношення середньо-дисперсійного значення не відповідає дійсності, оцінки параметрів не є упередженими . Однак стандартні помилки, довірчі інтервали, p-значення та прогнози - все неправильно відкалібровано. Це означає, що ви не можете контролювати помилку типу I, і у вас може бути неоптимальна потужність.

Що робити, якщо середня дисперсія може бути розслабленою, щоб дисперсія була просто пропорційною середній? Це робить негативна біноміальна регресія та квазіпоассонова регресія.

Моделі квазіпуассона

Моделі квазіпуассона не засновані на ймовірності. Вони максимізують "квазіподібність", яка є ймовірністю Пуассона до пропорційної постійної. Ця пропорційна константа буває дисперсією. Дисперсія вважається неприємністюпараметр. У той час, як у програмі максимізації приходить оцінка параметра неприємності, ця оцінка є лише артефактом даних, а не будь-яким значенням, яке узагальнюється для сукупності. Дисперсія служить лише для "зменшення" або "розширення" СЕ параметрів регресії відповідно до того, чи є дисперсія пропорційно меншою або більшою від середньої. Оскільки дисперсія трактується як параметр неприємності, квазіпоассонові моделі користуються безліччю надійних властивостей: дані насправді можуть бути гетероскедастичними (не відповідають умовам пропорційного середнього відхилення) і навіть виявляти невеликі джерела залежності, а середня модель не потребує бути точно правильним, але 95% ІС для параметрів регресії є асимптотично правильними.Якщо ваша мета аналізу даних полягає в вимірюванні зв’язку між набором параметрів регресії та результатом, зазвичай це шлях квазіпоассонових моделей. Обмеження цих моделей полягає в тому, що вони не можуть дати інтервалі прогнозування, залишки Пірсона не можуть сказати вам багато про те, наскільки точна середня модель, а інформаційні критерії, такі як AIC або BIC, не можуть ефективно порівнювати ці моделі з іншими типами моделей.

Негативні біноміальні моделі

Найбільш корисно розуміти негативну біноміальну регресію як 2-параметричну пуассонову регресію. Середня модель така ж, як у моделях Пуассона та Квазіпоассона, де журнал результату є лінійною комбінацією прогнозів. Крім того, параметр "шкала" моделює співвідношення середньо-дисперсійної залежності, коли дисперсія просто пропорційна середньому, як раніше. Однак, на відміну від моделей квазіпоассона, цей тип моделі є точно визначеною ймовірністю процедурою. У цьому випадку дисперсія - це фактичний параметр, який має певну міру узагальненості для сукупності. Це дає кілька переваг перед квазіпоассоном, але, на мій погляд, накладає більше (непереборних) припущень. На відміну від квазіпоассонових моделей: дані повинні бути незалежними, середня модель повинна бути правильною, а параметр масштабу повинен бути гомосклестичним у межах діапазону пристосованих значень, щоб отримати правильні умовиводи. Однак їх можна дещо оцінити, перевіривши залишки Пірсона, і модель створює життєздатні інтервали прогнозування та прогнозування і піддається порівнянню з інформаційними критеріями.

Негативні біноміальні моделі ймовірності виникають із суміші Пуассона-Гамма. Тобто, є невідома коливальна гамма-випадкова величина "подача" в показник швидкості Пуассона. Оскільки в підключенні NB GLM ґрунтується вірогідність, зазвичай корисно висловити попередні переконання щодо механізму генерування даних та підключити їх до ймовірнісного обґрунтування даної моделі. Наприклад, якщо я тестую кількість гонщиків, які виходять з 24-годинних гонок на витривалість, я можу врахувати, що екологічні умови - це всі стресові фактори, які я не вимірював, і таким чином сприяю ризику ДНФ, наприклад, вологість або холодна температура, що впливають на шину тяга і, отже, ризик викрутки та аварії.

Моделі залежних даних: GLMMs проти GEE

Узагальнені лінійні змішані моделі (GLMM) для даних Пуассона не порівнюються з вищезазначеними підходами. GLMM відповідають на інше питання і використовуються в різних структурах даних. Тут джерела залежності між даними вимірюються чітко. GLMM використовують випадкові перехоплення та випадкові нахили для обліку неоднорідності індивідуального рівня. Це змінює те, що ми оцінюємо. Випадкові ефекти змінюють середню та дисперсію, яка моделюється, а не просто дисперсію, як обговорювалося вище.

Є два можливі рівні асоціації, які можна виміряти залежними даними: рівень населення (граничний) та індивідуальний рівень (умовний). GLMM стверджують, що вимірюють індивідуальні рівні (умовні) асоціації: тобто, враховуючи всю кількість окремих учасників рівня результатів, який є відносний ефект від комбінації предикторів. Наприклад, підготовчі курси до іспитів можуть бути малоефективними для дітей, які відвідують зразкові школи, тоді як діти з внутрішніх міст можуть отримати величезну користь. Ефект індивідуального рівня в цій обставині значно вищий, оскільки діти, які перебувають у стані благополуччя, занадто далеко над кривою з точки зору позитивного впливу.

Якби ми наївно застосували квазіпойсонові або негативні біноміальні моделі до залежних даних, то моделі NB були б помилковими, а моделі Квазіпуассона були б неефективними. Однак, GEE розширює модель квазіпоассона, щоб явно моделювати структури залежності, такі як GLMM, але GEE вимірює граничну тенденцію (рівень населення) та отримує правильні ваги, стандартні помилки та умовиводи.

Приклад аналізу даних:

Цей пост уже занадто довгий :) У цьому підручнику є приємна ілюстрація двох перших моделей , а також посилання на додаткові читання, якщо вас цікавить. Ці дані стосуються звичок гніздування кінських крабів: самки сидять у гніздах, а самці (супутники) прикріплюються до неї. Дослідники хотіли виміряти кількість чоловіків, прив’язаних до самки, залежно від особливостей самки. Я сподіваюся, що я підкреслив, чому змішані моделі є непорівнянними: якщо у вас залежні дані, ви повинні використовувати правильну модель для запитання, на яке залежать дані, які намагаються відповісти, або GLM, або GEE.

Список літератури:

[1] Agresti, категоричний аналіз даних 2-е видання

[2] Diggle, Heagerty, Liang, Zeger, Аналіз поздовжніх даних 2-е видання.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.