Чому звичайні найменші квадрати працюють краще, ніж пуассонова регресія?


18

Я намагаюся вписати регресію, щоб пояснити кількість вбивств у кожному районі міста. Хоча я знаю, що мої дані слідують за розповсюдженням Пуассона, я намагався встановити OLS так:

log(y+1)=α+βX+ϵ

Потім я також спробував (звичайно!) Регресію Пуассона. Проблема полягає в тому, що я маю кращі результати в регресії OLS: псевдо- вище (0,71 проти 0,57), а також RMSE (3,8 проти 8,88. Стандартизовано мати однаковий блок).R2

Чому? Це нормально? Що не так у використанні OLS незалежно від розподілу даних?

редагування Виконуючи пропозиції kjetil b halvorsen та інших, я встановив дані через дві моделі: OLS та Negative Binomial GLM (NB). Я почав з усіх функцій, які я маю, потім рекурсивно видаляв одну за одною риси, які були несуттєвими. OLS є

crimearea=α+βX+ϵ

з вагами = .area

summary(w <- lm(sqrt(num/area) ~  RNR_nres_non_daily + RNR_nres_daily + hType_mix_std + area_filtr + num_community_places+ num_intersect + pop_rat_num + employed + emp_rat_pop + nden_daily + nden_non_daily+ bld_rat_area + bor_rat_area + mdist_highways+ mdist_parks, data=p, weights=area))

error2 <- p$num - (predict(w, newdata=p[,-1:-2], type="response")**2)*p$area

rmse(error2)
[1] 80.64783

Національний департамент прогнозує кількість злочинів, а район району є компенсованим.

summary(m3 <- glm.nb(num ~  LUM5_single  + RNR_nres + mdist_daily + mdist_non_daily+ hType_mix_std + ratio_daily_nondaily_area + area_filtr + num_community_places  + employed  + nden_daily + nden_non_daily+ bld_rat_area + bor_rat_area + mdist_smallparks + mdist_highways+ mdist_parks + offset(log(area)), data=p, maxit = 1000))

error <- p$num - predict(m3, newdata=p[,-1:-2], type="response")

rmse(error)
[1] 121.8714

Залишки OLS:

введіть тут опис зображення

Залишки NB

введіть тут опис зображення

Таким чином, RMSE нижче в OLS, але здається, що залишки не такі нормальні ....


Чи можете ви опублікувати ще детальну інформацію? Яка природа даних? тобто підрахунок змінної відповіді? що таке пояснювальні змінні?
kjetil b halvorsen

@kjetilbhalvorsen залежною змінною є кількість вбивств на округ (112 округів). Незалежні - це структурна характеристика міста (перехрестя вулиць, POI тощо)
marcodena

2
Якби я підходив до цієї моделі за допомогою регресії Пуассона, я б включав журнал (округ) як компенсацію для врахування округів, не всі розміри аме. Якщо вони не є.
mdewey

1
Яке обґрунтування ви вважаєте, що порівняння OLS з p s e u d o - R 2 з оцінки ML (і R M S E ) дає вам вказівку на те, наскільки хороша певна модель? OLS за конструкцією максимізує R 2 . Чи регресія отрути побудована так, щоб максимально збільшити p s e u d o - R 2 ? Я не вважаю так, і не думаю, що це порівняння корисне. R2pseudoR2RMSER2pсеуго-R2
coffeinjunky

1
Ще одне, що слід додати - від ols вказує% дисперсії, поясненої в z = log ( y + 1 ), тоді як poisson psuedo R 2 намагається дати вказівку на% дисперсії y, що пояснюється. Це також могло б пояснити різницюR2z=журнал(у+1)R2у
ймовірністьлогічного

Відповіді:


16

Я підозрюю, що частина проблеми може полягати у виборі метрики ефективності. Якщо ви вимірюєте ефективність тесту за допомогою RMSE, тоді навчаєте модель мінімізації MSE відповідає критерію тесту, даючи підказку щодо того, що вважається важливим. Ви можете виявити, що якщо ви вимірюєте ефективність тесту, використовуючи негативну ймовірність тестування тестового набору, використовуючи ймовірність Пуассона, що модель Пуассона працює краще (як можна було очікувати). Це може бути незначним питанням у порівнянні з іншими порушеними питаннями, але це може бути корисною перевірною обгрунтованістю.


1
+1. Якщо мета ОП була прогнозуванням, насправді може бути обґрунтування використання натомість моделі OLS! Тим не менш, класичне висновок на основі помилок, що виникає через OLS, не може / не повинен застосовуватися в GLM. Можна було б ознайомитись із зафіксованими залишками, або кращим варіантом було б порівняння моделей з AIC.
AdamO

11

По-перше, з такими даними я б очікував перевищення (якщо ви не знаєте, що це таке, див. Https://stats.stackexchange.com/search?q=what+is+overdispersion%3F ).

журнал(DistrictSize)Nr. вбивстваРозмір району

Інше питання - це перетворення, яке ви використовували при лінійній регресії. Звичайною дисперсією, що стабілізує перетворення, що використовується для даних лічильників, є квадратний корінь, а не логарифм.

Yi/хiYiПуассон(λхi)

ЕYiхiλVYiхiхi-1
хiYi/хiжурнал(Yi/хi+1)
    EDIT

Що стосується вашого додаткового аналізу в публікації, зауважте, що rmse неможливо порівняти безпосередньо між двома моделями, оскільки використовуються різні відповіді! Для прямого порівняння вам потрібно буде перетворити прогнозовані значення в початкову шкалу. Тоді ви можете самі порахувати rmse і побачити. Але зауважте, що прогнози, отримані після зворотної трансформації, можуть бути необ’єктивними через нелінійності. Тож деяке коригування зворотньо трансформованих прогнозів може зробити їх кориснішими. У деяких випадках таке можна обчислити теоретично, або ви просто можете скористатися завантажувальним інструментом.


Я підходив до моделей, як ви запропонували, хоча я не дуже розумів резонанс за зваженим OLS. Що ти думаєш?
marcodena


2

Це правда, що ваші дані звичайно не поширюються (я вважаю, чому ви також провели пуассонову регресію), але ваші дані, ймовірно, також не є розповсюдженням Пуассона. Розподіл Пуассона передбачає, що середнє значення та дисперсія є однаковими, що, ймовірно, не так (як згадується в інших відповідях - ви можете зафіксувати цю невідповідність та включити її в модель). Оскільки ваші дані насправді не ідеально підходять для будь-якої моделі, має сенс, що OLS може працювати краще.

Ще одна річ, що слід зазначити, що звичайні оцінки найменших квадратів є надійними для ненормативності, і це може бути причиною отримання розумної моделі. Теорема Гаусса-Маркова говорить нам, що оцінки коефіцієнтів OLS є найкращими (за середньою квадратичною помилкою) лінійними неупередженими оцінками (BLUE) за наступних припущень,

  • Помилки мають середнє значення нуля
  • Спостереження некорельовані
  • Помилки мають постійні відмінності

Тут немає припущення про нормальність, тому ваші дані цілком можуть бути розумними для цієї моделі! Зважаючи на це, я роздивився б модель Пуассона з параметром надмірної дисперсії, випечений там, і ви повинні отримати кращі результати.


@TynnaDoStat дякую! Зараз я встановив дві моделі, одну з параметром дисперсії. Що ти думаєш?
marcodena

2
Варіантність = середнє значення для розподілу Пуассона часто називають проблематичним припущенням для регресії Пуассона , але точка не така складна, як мається на увазі тут. Незважаючи на свою назву, основна ідея регресії Пуассона - це функція зв’язку журналу; припущення щодо умовного розподілу не так вже й важливі. Можливо, якщо припущення не всі дотримуються, це головним чином, що стандартні помилки вимкнено, якщо ви не скоригуєтесь, але придатність часто має сенс.
Нік Кокс

2
Дійсно, Пуассонова регресія може мати сенс для негативних вимірюваних відповідей, де дисперсія та середнє значення навіть не мають однакових розмірів. Дивіться, наприклад, blog.stata.com/2011/08/22/…
Нік Кокс
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.