OLS проти Poisson GLM з ідентифікаційним посиланням

Моє запитання виявляє моє слабке розуміння регресії Пуассона та ГЛМ загалом. Ось деякі підроблені дані, щоб проілюструвати моє запитання:

### some fake data
x=c(1:14)
y=c(0,  1,  2,  3,  1,  4,  9, 18, 23, 31, 20, 25, 37, 45)

Деякі спеціальні функції для повернення psuedo-R2:

### functions of pseudo-R2

psuR2 <- function(null.dev, model.dev) { 1 - (model.dev / null.dev)}

predR2 <- function(actuals, predicted) { 1 - (sum((actuals - predicted)^2)) / sum((actuals - mean(actuals))^2)}

Підходять чотири моделі: OLS, Gaussian GLM з посвідченням особи, Poisson GLM з посиланням на лог, Poisson GLM з посвідченням особи

#### OLS MODEL
mdl.ols=lm(y~x)
summary(mdl.ols)
pred.ols = predict(mdl.ols)

summary(mdl.ols)$r.squared
predR2(y, pred.ols)

#### GLM MODEL, family=gaussian(link="identity")
mdl.guass <- glm(y~x, family=gaussian(link="identity"), maxit=500)
summary(mdl.guass)
pred.guass = predict(mdl.guass)

psuR2(mdl.guass$null.deviance, mdl.guass$deviance)
predR2(y, pred.guass)

#### GLM MODEL, family=possion (canonical link)
mdl.poi_log <- glm(y~x, family=poisson(link="log"), maxit=500)
summary(mdl.poi_log)
pred.poi_log= exp(predict(mdl.poi_log))  #transform

psuR2(mdl.poi_log$null.deviance, mdl.poi_log$deviance)
predR2(y, pred.poi_log)

#### GLM MODEL, family=poisson((link="identity")
mdl.poi_id <- glm(y~x, family=poisson(link="identity"), start=c(0.5,0.5), maxit=500)
summary(mdl.poi_id)
pred.poi_id = predict(mdl.poi_id)

psuR2(mdl.poi_id$null.deviance, mdl.poi_id$deviance)
predR2(y, pred.poi_id)

Нарешті побудуйте прогнози:

#### Plot the Fit
plot(x, y) 
lines(x, pred.ols)
lines(x, pred.guass, col="green")
lines(x,pred.poi_log, col="red")
lines(x,pred.poi_id, col="blue")

У мене є 2 питання:

Схоже, що коефіцієнти та прогнози, що виходять з OLS та Gaussian GLM з ідентифікаційним зв'язком, абсолютно однакові. Це завжди правда?
Я дуже здивований, що оцінки та прогнози OLS сильно відрізняються від Poisson GLM зі зв’язком ідентичності . Я думав, що обидва методи спробують оцінити E (Y | X). Як виглядає функція ймовірності, коли я використовую посилання ідентичності для Пуассона?

generalized-linear-model poisson-distribution

— Вільям Чіу
джерело

Пов’язано: stats.stackexchange.com/questions/142338/…

— b halvorsen

Якщо ви хочете зробити найменші квадрати, щоб наблизити модель Пуассона до ліній ідентичності, ви також могли б встановити модель зважених найменших квадратів, mdl.wols = lm (y ~ x, ваги = 1 / log (y + 1.00000000001)), де журнал (y + 1.00000000001) тоді приймається як перша оцінка дисперсії (sqrt (y + 1E-10)) також працює - оцінки таких моделей були б дуже близькими до оцінок Poisson GLM з посвідченням ідентичності ...

— Tom Wenseleers

Так, вони те саме. MLE для гаусса - це найменші квадрати, тож коли ви робите гауссовий GLM з ідентифікаційним посиланням, ви робите OLS.
а) " Я думав, що обидва методи намагатимуться оцінити E (Y | X) "

Дійсно, вони є, але спосіб, який умовне очікування оцінюють як функцію даних, не є однаковим. Навіть якщо ми ігноруємо розподіл (і, отже, як дані надходять у ймовірність) і думаємо про ГЛМ саме з точки зору середнього та відхилення (як би це була лише зважена регресія), дисперсія Пуассона зростає із середньою, так відносні ваги спостережень були б різними.

б) " Як виглядає функція ймовірності, коли я використовую посилання ідентичності для Пуассона? "

$\mathcal{L}(\beta_0,\beta_1) = \prod_i e^{-\lambda_i}\lambda_i^{y_i}/y_i!$

$\qquad\qquad\,=\exp(\sum_i -\lambda_i+{y_i}\log(\lambda_i)-\log{(y_i!)}\,)\quad$ де $\lambda_i=\beta_0+\beta_1 x_i$

$\qquad\qquad\,=\exp(\sum_i -(\beta_0+\beta_1 x_i)+{y_i}\log(\beta_0+\beta_1 x_i)-\log{(y_i!)}\,)$

— Glen_b -Встановити Моніку
джерело

Опрацювання другого пункту Glen_b. Одна з історій, яку я розповідав собі, і яку я знайшов досить уточнюючою, полягає в тому, що, коли оцінене умовне середнє значення збільшується в моделі Пуассона, модель стає більш толерантною до значень даних, далеко від умовної середньої. Порівнюйте це з прямолінійною моделлю, яка рівномірно толерантна незалежно від того, яке середнє умовне значення оцінюється.

— Меттью Друрі

@Glen_b, чи можу я попросити вас уточнити, що ви сказали: "отже, як дані вводять ймовірність". Ви хочете сказати, що ймовірність відповідності моделі відрізняється між OLS та POisson (link = ідентифікація), коли вона встановлюється за допомогою MLE ?. Тобто, якщо підходить OLS за допомогою MLE, чи використовуєте ви функцію ймовірності для нормального розподілу, щоб обчислити ймовірність пристосування, порівняно з функцією ймовірності від розподілу Пуассона в останньому випадку?

— Олексій

@Alex Right; OLS - ML в гауссових і гауссових вірогідність не є ймовірністю Пуассона

— Glen_b -Встановити Моніку