Як можливо, що Poisson GLM приймає не цілі числа?


17

Я дуже вражений тим, що Poisson GLM приймає не цілі числа! Подивіться:

Дані (вміст data.txt):

1   2001    0.25  1
1   2002    0.5   1
1   2003    1     1
2   2001    0.25  1
2   2002    0.5   1
2   2003    1     1

R скрипт:

t        <- read.table("data.txt")
names(t) <- c('site', 'year', 'count', 'weight')
tm       <- glm(count ~ 0 + as.factor(site) + as.factor(year), data = t, 
                family = "quasipoisson")  # also works with family="poisson"
years    <- 2001:2003
plot(years, exp(c(0, tail(coef(tm), length(years)-1))), type = "l")

Індекс отриманого року є "очікуваним", тобто 1-2-4в роках 2001-2003.

Але як можливо, що Poisson GLM приймає не цілі числа? Розподіл Пуассона завжди був лише цілим числом!


2
Чи можете ви уточнити, що саме ви хочете знати? Як алгоритм підгонки має справу з нецілими числами? Або чому R не перевіряє, чи відповідь є цілим числом? Або чи є щось неправильне в результаті, коли постачаються нецілі числа?
Момо

@Momo, так, всі ці питання цікаві!
Цікаво

2
Відредагуйте своє запитання, щоб це відобразити. Ви, швидше за все, отримаєте хорошу відповідь таким чином.
Момо

8
Не те, що це насправді має значення, як це правда family="poisson"також, але зауважте, що ваш приклад - це не Poisson GLM, як ви використовуєте quasipoissonсімейство, яке все одно залежить лише від співвідношення між середньою та дисперсією, так що у випадку, не повинно бути несподіванкою щодо прийому не цілих чисел.
Аарон залишив стек переповнення

1
Ось кілька посилань на те, чому це може мати сенс.
Мастеров Димитрій Васильович

Відповіді:


17

Звичайно, ви вірні, що розподіл Пуассона технічно визначено лише для цілих чисел. Однак статистичне моделювання є мистецтвом хороших наближень (" всі моделі неправильні "), і бувають випадки, коли є сенс трактувати не цілі дані як би [приблизно] Пуассона.

Наприклад, якщо ви надсилаєте двох спостерігачів, щоб записати однакові дані підрахунку, може статися, що два спостерігачі не завжди погоджуються на підрахунок - один може сказати, що щось трапилося 3 рази, а інший сказав, що це сталося 4 рази. Тоді приємно мати можливість використовувати 3,5 при встановленні коефіцієнтів Пуассона, замість того, щоб вибирати між 3 і 4.

Обчислено, що факторіал у Пуассоні може ускладнити роботу з не цілими числами, але існує суцільне узагальнення факторіалу. Більше того, виконання максимальної оцінки ймовірності для Пуассона навіть не передбачає факторіальної функції, коли ви спростите вираз .


15

Для відповіді , якщо припустити, що логарифм його очікування є лінійною комбінацією предикторів x E Y i = exp β T x i & її дисперсія дорівнює його очікуванню Var Y i = E Y i, то послідовні оцінки регресії коефіцієнти β можна отримати, розв’язавши рівняння балів для моделі Пуассона: n i x i ( y i - exp β T x i ) = 0yx

EYi=expβTxi
VarYi=EYi
β
inxi(yiexpβTxi)=0
Звичайно, послідовність не означає достовірність будь-яких тестів або довірчих інтервалів; ймовірність не була визначена.

Це випливає з підходу, який ми вивчили в школі, і веде до узагальнених рівнянь оцінювання .

@ Аарон зазначив, що ви фактично використовуєте квазі-Пуассон, який відповідає вашому коду. Це означає, що дисперсія пропорційна середньому

VarYi=ϕEYi

з параметром дисперсії ϕ

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.