Ідентичні коефіцієнти, оцінені в моделі Пуассона проти Квазі-Пуассона


12

При моделюванні даних про кількість позовів у страховому середовищі я почав із Пуассона, але потім помітив перевищення рівня. Квазі-Пуассон краще моделював більшу співвідношення середньої дисперсії, ніж основний Пуассон, але я помітив, що коефіцієнти були однаковими як у моделях Пуассона, так і в Квазі-Пуассона.

Якщо це не помилка, чому це відбувається? Яка користь від використання Квазі-Пуассона над Пуассоном?

Що слід зазначити:

  • Основні втрати лежать в надлишку, що (я вважаю) завадило Твіді працювати - але це було перше розповсюдження, яке я спробував. Я також оглянув моделі NB, ZIP, ZINB та Hurdle, але все-таки виявив, що Квазі-Пуассон забезпечив найкращу форму.
  • Я перевірив наявність надмірної дисперсії через дисперсію в пакеті AER. Мій параметр дисперсії становив приблизно 8,4, з р-значенням на величині 10 ^ -16.
  • Я використовую glm () з сім’єю = poisson або quasipoisson та посиланням на журнал для коду.
  • Під час запуску коду Пуассона я виходжу з попередженнями "In dpois (y, mu, log = TRUE): non-integer x = ...".

Корисні нитки SE за вказівками Бена:

  1. Основна математична зміна при регресії Пуассона
  2. Вплив компенсацій на коефіцієнти
  3. Різниця між використанням експозиції як коваріату проти зсуву

Невже дистрибуція Tweedie не буде кращою ідеєю?
duffymo

Спробував Tweedie з початку роботи, але наші дані про збитки не ґрунтовні, а скоріше на надмірній основі. Також спробували негативні моделі Binomial, ZIP і перешкоди для вирішення кількості дисперсій.
Френк Х.

1
чи можете ви пояснити трохи більше про те, звідки беруться цілі значення у ваших даних ??
Бен Болкер

6
не слід моделювати частоти / швидкості, обчислюючи коефіцієнти counts/exposure. Швидше, ви повинні додати offset(log(exposure))термін offset ( ) до своїх моделей.
Бен Болкер

1
Це практично, хоча найважливіше при моделюванні Пуассона (а не квазі-Пуассона). Я не знаю хорошої довідкової інформації; якщо ви не можете знайти відповідну відповідь тут на CrossValided, це поставить точне запитання.
Бен Болкер

Відповіді:


25

Це майже дублікат ; пов'язане запитання пояснює, що не слід очікувати зміни коефіцієнтів, залишкового відхилення чи міри свободи. Єдине, що змінюється при переході від Пуассона до квазі-Пуассона, це те, що параметр шкали, який раніше був зафіксований на 1, обчислюється з деякої оцінки залишкової мінливості / непридатності придатності (зазвичай оцінюється за сумою квадратів залишків Пірсона ( ) ділиться на залишковий df, хоча асимптотично з використанням залишкового відхилення дає той самий результат). Результатом є те, що стандартні помилки масштабуються квадратним коренем цього параметра масштабу із супутніми змінами довірчих інтервалів та -значень. пχ2p

Перевага квазіімовірності полягає в тому, що вона фіксує основну помилковість припущення, що дані є Пуассоном (= однорідні, незалежні підрахунки); однак виправлення проблеми таким чином потенційно маскує інші проблеми з даними. (Див. Нижче.) Квазі-ймовірність - це один із способів поводження з наддисперсією; якщо якимось чином не вирішуватимемо перевищення, ваші коефіцієнти будуть розумними, але ваш висновок (CI, -значення тощо) буде сміттям.p

  • Як ви коментуєте вище, існує багато різних підходів до наддисперсії (Твіді, різні негативні біноміальні параметризації, квазіімовірність, нульова інфляція / зміна).
  • З коефіцієнтом завищення> 5 (8.4) я б трохи переживав, чи керується воно якоюсь невідповідною моделлю (випускники, нульова інфляція (яку, я бачу, ви вже пробували), нелінійність) ніж представлення всебічної неоднорідності. Мій загальний підхід до цього - це графічне дослідження необроблених даних та регресія діагностики ...

Дуже корисний. Тепер я бачу, що p-значення для змінних та рівнів змінних в Пуассоні набагато статистично значущіші, ніж для Квазі-Пуассона, через згадане вами масштабування. Я робив тест на людину, що пережив люди, але не вважав це проблемою. Якими можуть бути інші проблеми, які маскуються надмірною дисперсією, чи приклади таких підходів до пошуку цих проблем?
Френк Х.

Переважно нелінійність відповідей за посилальною (журнальною) шкалою; перевірте графіки залишків проти пристосованих та графіків змінних залишків проти прогнозування, щоб побачити, чи є закономірності.
Бен Болкер

1
+1 Чудово викладено! Я дуже ціную чіткість вашого першого абзацу.
Олексій
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.