Припущення щодо регресії Пуассона та тестування їх у R


11

Я хотів би перевірити, яка регресія найкраще відповідає моїм даним. Моя залежна змінна - кількість, і вона має багато нулів.

І мені знадобиться допомога, щоб визначити, яку модель та сімейство використовувати (пуассон чи квазипоассон, або нульову завищену регресію пуассону) та як перевірити припущення.

  1. Регресія Пуассона: наскільки я розумію, сильне припущення полягає в тому, що залежна змінна середня величина = дисперсія. Як ви це тестуєте? Наскільки близькими вони повинні бути? Чи використовуються для цього безумовне або умовне середнє значення та дисперсія? Що робити, якщо це припущення не дотримується?
  2. Я читав, що якщо дисперсія більша за середню, у нас є наддисперсія, і потенційний спосіб вирішити це, включаючи більше незалежних змінних або family = quasipoisson. Чи має цей розподіл якісь інші вимоги чи припущення? Який тест я використовую, щоб побачити, чи краще (1) чи (2) підходить просто anova(m1,m2)?
  3. Я також читав, що негативно-біноміальний розподіл можна використовувати при появі наддисперсії. Як це зробити в R? Чим відрізняється квазіпоассон?
  4. Нуль-завищена регресія Пуассона: я читав, що за допомогою тесту vuong перевіряється, які моделі краще підходять.

    > vuong (model.poisson, model.zero.poisson)

    Це правильно? Які припущення мають нульову регресію?

  5. Служба статистичних консультацій UCLA, Статистична консультаційна група має розділ про завищені нульовими пуассоновими регресіями і перевіряє нульову завиту модель (а) на стандартну модель пуассона (b):

    > m.a <- zeroinfl(count ~ child + camper | persons, data = zinb)
    > m.b <- glm(count ~ child + camper, family = poisson, data = zinb)
    > vuong(m.a, m.b)

Я не розумію, що стосується | personsпершої моделі, і чому ви можете порівнювати ці моделі. Я очікував, що регрес буде однаковим і просто використовувати іншу родину.

Відповіді:


8

Х¯S2Ж(1,н-1)н

Зауважте, що цей тест ігнорує коваріати - тому, мабуть, не найкращий спосіб перевірити надмірну дисперсію в цій ситуації.

Зауважимо також, що цей тест, ймовірно, слабкий проти нульової завищеної гіпотези.

3) негативний двочлен у R: використовувати glm.nbз MASSпакета або використовувати zeroinflфункцію з psclпакета, використовуючи негативне біноміальне посилання.

4) блискавка (нуль-надутий Пуассон) - модель суміші. У вас є бінарний результат, згідно з яким суб'єкт належить до групи А (де 0 визначено) або до групи В (де рахунки Пуассона або негативні двочлени). Помічене 0 обумовлене суб'єктами з групи А + суб'єкти з групи В, яким випадково пощастило. Обидва аспекти моделі можуть залежати від коваріатів: приналежність до групи моделюється як логістична (шанси журналу лінійні в коваріатах), а частина Пуассона моделюється звичайним чином: середнє значення журналу лінійне в коваріатах. Отже, вам потрібні звичайні припущення для логістики (для певної частини 0) та звичайні припущення для Пуассона. Іншими словами, модель на блискавці не вилікує ваших проблем із надмірною дисперсією - вона вилікує лише велику групу нулів.

5) не впевнений, що таке набір даних і не зміг знайти посилання. zeroinfl потрібна модель як для пуассонової частини, так і для двійкової (певної 0 чи ні) частини. Певна частина 0 йде другою. Тож ма кажуть, що людина є певним 0 чи ні, залежить від "осіб", - і якщо припущення, що суб'єкт не є певним 0, підрахунок - це функція туриста і дитини. Іншими словами, log (середнє значення) - це лінійна функція відпочинку та дитини для тих суб'єктів, які не потребують підрахунку 0.

mb - це лише загальна лінійна модель підрахунку за кемпером та дитиною - обидва вважаються фіксованими ефектами. Функція зв'язку - Пуассон.


Дякую! Швидке запитання: чи є спосіб отримати r ^ 2 або pseudo-r ^ 2, як Nagelkerke в glm, використовуючи family = poisson в R? Дякую!
Торвон

0
  1. бібліотека (пасти)

stat.desc (dep_var) - а потім подивіться, якщо середнє значення та дисперсія рівні. Звідси ви також можете обчислити% нулів у вашому векторі.


3
Ласкаво просимо на сайт. Це більше схоже на коментар, ніж на відповідь; також краще використовувати правильний написання тощо - це не текстові повідомлення, і багато людей, які читають цей сайт, мають англійську мову як 2-ю чи 3-ю чи ....
Пітер Флом

3
Будь ласка, працюйте над вдосконаленням цієї швидкої відповіді.
chl
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.