При моделюванні даних про кількість позовів у страховому середовищі я почав із Пуассона, але потім помітив перевищення рівня. Квазі-Пуассон краще моделював більшу співвідношення середньої дисперсії, ніж основний Пуассон, але я помітив, що коефіцієнти були однаковими як у моделях Пуассона, так і в Квазі-Пуассона.
Якщо це не помилка, чому це відбувається? Яка користь від використання Квазі-Пуассона над Пуассоном?
Що слід зазначити:
- Основні втрати лежать в надлишку, що (я вважаю) завадило Твіді працювати - але це було перше розповсюдження, яке я спробував. Я також оглянув моделі NB, ZIP, ZINB та Hurdle, але все-таки виявив, що Квазі-Пуассон забезпечив найкращу форму.
- Я перевірив наявність надмірної дисперсії через дисперсію в пакеті AER. Мій параметр дисперсії становив приблизно 8,4, з р-значенням на величині 10 ^ -16.
- Я використовую glm () з сім’єю = poisson або quasipoisson та посиланням на журнал для коду.
- Під час запуску коду Пуассона я виходжу з попередженнями "In dpois (y, mu, log = TRUE): non-integer x = ...".
Корисні нитки SE за вказівками Бена:
counts/exposure
. Швидше, ви повинні додати offset(log(exposure))
термін offset ( ) до своїх моделей.