Пуассон або квазі-пуассон в регресії з даними підрахунку і перевищенням?


16

У мене є дані про підрахунок (аналіз попиту / пропозиції з підрахунком кількості клієнтів, залежно від - можливо - багатьох факторів). Я спробував лінійну регресію з нормальними помилками, але мій QQ-графік не дуже хороший. Я спробував перетворення журналу відповіді: ще раз, поганий QQ-графік.

Тому зараз я намагаюся регресувати з помилками Пуассона. Маючи модель із усіма значущими змінними, я отримую:

Null deviance: 12593.2  on 53  degrees of freedom
Residual deviance:  1161.3  on 37  degrees of freedom
AIC: 1573.7

Number of Fisher Scoring iterations: 5

Залишкове відхилення більше, ніж залишкові ступені свободи: у мене є наддисперсія.

Як я можу знати, чи потрібно мені використовувати квазипоассон? Яка мета квазіпуассона в цьому випадку? Я читав цю пораду в «Книзі R» Кроулі, але не бачу сенсу і не значного покращення в моєму випадку.

Відповіді:


18

Намагаючись визначити, який тип рівняння glm ви хочете оцінити, слід подумати над правдоподібними зв’язками між очікуваним значенням вашої цільової змінної з урахуванням правої (rhs) змінної та дисперсії цільової змінної з урахуванням змінних rhs. Діаграми залишків проти встановлених значень з вашої моделі Normal можуть допомогти у цьому. При регресії Пуассона передбачається, що дисперсія дорівнює очікуваній величині; досить обмежувальний, я думаю, ти погодишся. При "стандартній" лінійній регресії припущення полягає в тому, що дисперсія є постійною незалежно від очікуваного значення. Для квазі-пуассонової регресії дисперсія вважається лінійною функцією середнього; для негативної біноміальної регресії - квадратична функція.

Однак ви не обмежуєтесь цими відносинами. Специфікація "сім'ї" (крім "квазі") визначає середньо-дисперсійне співвідношення. У мене немає книги "R", але я думаю, що у неї є таблиця, яка показує сімейні функції та відповідні середньо-різницеві відносини. Для сімейства "квазі" ви можете вказати будь-яке з декількох середньо-різницевих відносин, і навіть ви можете написати своє; див. R документацію . Можливо, ви можете знайти набагато кращу відповідність, вказавши значення "за замовчуванням" для функції середньої дисперсії в "квазі" моделі.

Ви також повинні звернути увагу на діапазон цільової змінної; у вашому випадку це неотримані дані підрахунку. Якщо у вас значна частка низьких значень - 0, 1, 2 - безперервні розподіли, ймовірно, не підходять добре, але якщо ви цього не зробите, то використання дискретного розподілу не має великого значення. Рідко можна вважати розподіли Poisson і Normal конкурентами.


Так, ви праві. Тут у мене є дані про підрахунок, але з великими значеннями. Я повинен використовувати безперервний розподіл.
Антонін

8

Ви маєте рацію, ці дані, ймовірно, можуть бути завищені. Квазіпуассон - це засіб захисту: він також оцінює параметр масштабу (який фіксується для пуассонових моделей, оскільки дисперсія також є середньою) і забезпечить кращу відповідність. Однак це вже не максимальна ймовірність того, що ви робите, і певні тести та індекси моделей використовувати не можна. Гарну дискусію можна знайти у Венеблес та Ріплі, сучасна прикладна статистика із S (Розділ 7.5) .

Альтернативою є використання негативної біноміальної моделі, наприклад, glm.nb()функції в пакеті MASS.


1
Але я "змушений" використовувати квазіпоассон в цьому випадку? Я запитую, оскільки моя не квазіпойсонова модель є кращою (просто базовий пуассон) в тому сенсі, що більше змінних є значущими.
Антонін

2
Хіба це не має сенсу? Якщо я використовував регресійну модель, де я припускав, що сигма є .00001 замість того, щоб використовувати оцінку з даних (2.3 скажімо), то, звичайно, все буде важливішим.
Дасон

1
Антонін: Я б сказав, що, оскільки більше змінних є важливими, це не робить речі "кращими". Як зазначав Дейсон, вони можуть бути помилковими, якщо ви недооцінюєте відхилення від помилок. У цьому випадку я б неодмінно використовував квазі-метод або негативний двочлен, але якщо я не перегляну ваш документ, ви нічого не змусите робити;)
Момо,

Дякую за ваші відповіді! Чи знаєте ви який-небудь спосіб порівняння квазі-пуассонових та негативних біноміальних моделей? У більшості книг вони представлені моделями, але не пояснюють, як вибрати між ними.
Антонін

1
З виходу, здається, вам підходить 53-17 = 16 параметрів до 53 + 1 = 54 точки даних; чи це правильно? Якщо так, будь-який метод, який спирається на асимптотичні наближення, включаючи використання glm()та glm.nb()може дати неправильно калібровані умовиводи; було б розумно очікувати, що точність буде завищена. Було б корисно дізнатися більше про те, чому ви хочете зробити цей регрес; можливі методи, які краще працюють у невеликих вибіркових ситуаціях.
гість
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.