Які переваги має регресія Пуассона над лінійною регресією в даному випадку?


12

Мені було надано набір даних, що містить кількість нагород, отриманих студентами в одній середній школі, де передбачувачі кількості зароблених нагород включають тип програми, за якою студент був зарахований, та бал на їх підсумковому іспиті з математики.

Мені було цікаво, чи може хтось мені сказати, чому лінійна регресійна модель може бути непридатною в даному випадку і чому краще використовувати регресію Пуассона? Дякую.

Відповіді:


14

Три моменти про регресію Пуассона проти нормальної, і все стосується специфікації моделі:

Вплив змін прогнозів

При безперервному прогнозуванні, наприклад, з математичного тесту, регресія Пуассона (зі звичайним посиланням на журнал) означає, що зміна одиниці в прогнокторі призводить до зміни відсотка кількості нагород у відсотках, тобто 10 додаткових балів на тесті з математики пов'язані, наприклад, з 25 відсотка більше нагород. Це залежить від кількості нагород, які студент вже передбачає. На відміну від цього, Звичайний регрес асоціює ще 10 балів із фіксованою сумою, скажімо, ще 3 нагороди за будь-яких обставин. Ви повинні бути задоволені цим припущенням, перш ніж використовувати модель, яка його робить. (fwiw Я думаю, що це дуже розумно, модуль наступний пункт.)

Робота зі студентами без нагород

Якщо дійсно багато нагород поширюється на багато студентів, то кількість ваших нагород в основному буде досить низькою. Насправді я б передбачив нульову інфляцію, тобто більшість студентів не отримують жодної нагороди, тому багато нулів, а деякі хороші студенти отримують досить багато нагород. Це псується з припущеннями моделі Пуассона і є принаймні так само погано для нормальної моделі.

Якщо у вас є пристойний обсяг даних, то модель "нульового надуття" або "перешкода" буде природною. Це дві моделі, зв'язані між собою: одна для передбачення того, чи здобуде студент нагороди, а друга для передбачення, скільки вона отримає, якщо вона отримає її взагалі (зазвичай це якась форма моделі Пуассона). Я б очікував, що всі дії будуть в першій моделі.

Ексклюзивність нагороди

Наостанок невеличкий пункт про нагороди. Якщо нагороди є ексклюзивними, тобто якщо один студент отримує нагороду, то ніхто інші студенти не можуть отримати нагороду, то ваші результати поєднуються; один підрахунок для студента підштовхує можливий підрахунок кожного іншого. Чи варто про це турбуватися, залежить від структури нагород та чисельності студентської сукупності. Я б ігнорував це з першого проходу.

На закінчення, Пуассон комфортно домінує над Normal, за винятком дуже великих підрахунків, але перевіряйте припущення Пуассона, перш ніж сильно спертися на нього для висновку, і будьте готові перейти до дещо складнішого модельного класу, якщо це необхідно.


9

Пуассонова регресія була б більш доречною в цьому випадку, оскільки ваша відповідь - це підрахунок чогось.

λ

λλ

Звичайна лінійна регресія передбачає нормальні похибки навколо середнього значення, а отже, однаково їх зважує. Це говорить про те, що якщо у студента очікувана кількість нагород 1, для них така ж ймовірність отримати -2 нагороди, як і 3 нагороди: це явно нісенітниця, і для чого побудований poisson.


8

ln(awards+0.5)

Крім того, оскільки очікувана кількість нагород стає дуже великою, OLS повинен працювати краще з причин, викладених @Corone. В озері Wobegon OLS - це шлях.

Якщо очікуване число буде низьким, з великою кількістю нулів, я б використав Пуассона з надійними стандартними помилками щодо негативної біноміальної моделі. Регресія NB дає вагомі припущення щодо дисперсії, яка з’являється в умовах першого порядку, що дають коефіцієнти. Якщо ці припущення не будуть виконані, самі коефіцієнти можуть бути забруднені. Це не так з Пуассоном.


4

λλ

set.seed(12345)
pois10 <- rpois(1000, 10)
plot(density(pois10))
library(moments)
skewness(pois10)

показує нахил 0,31, що досить близько до 0.

Мені також подобаються точки @conjugateprior. На мій досвід, регресія Пуассона досить рідко підходить; Зазвичай я закінчую, використовуючи або негативну біноміальну, або нульову завищену модель.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.