Оцінка коригуваних коефіцієнтів ризику у двійкових даних за допомогою реагресії Пуассона

9

Мені цікаво оцінити скоригований коефіцієнт ризику, аналогічний тому, як можна оцінити скоригований коефіцієнт шансів за допомогою логістичної регресії. Деяка література (наприклад, ця ) вказує на те, що використання регресії Пуассона зі стандартними помилками Губера-Уайта є модельним способом зробити це

Я не знайшов літератури про те, як коригування на безперервні коваріати впливає на це. Наступне просте моделювання демонструє, що це питання не так просто:

arr <- function(BLR,RR,p,n,nr,ce)
{
   B = rep(0,nr)
   for(i in 1:nr){
   b <- runif(n)<p 
   x <- rnorm(n)
   pr <- exp( log(BLR) + log(RR)*b + ce*x)
   y <- runif(n)<pr
   model <- glm(y ~ b + x, family=poisson)
   B[i] <- coef(model)[2]
   }
   return( mean( exp(B), na.rm=TRUE )  )
}

set.seed(1234)
arr(.3, 2, .5, 200, 100, 0)
[1] 1.992103
arr(.3, 2, .5, 200, 100, .1)
[1] 1.980366
arr(.3, 2, .5, 200, 100, 1)
[1] 1.566326

У цьому випадку справжній коефіцієнт ризику дорівнює 2, який надійно відновлюється, коли ефект коваріату невеликий. Але коли ефект коваріату великий, це спотворюється. Я припускаю, що це виникає тому, що ефект коваріату може підштовхуватися до верхньої межі (1), і це забруднює оцінку.

Я переглянув, але не знайшов жодної літератури щодо коригування безперервних коваріатів в оцінці коригуваного коефіцієнта ризику. Мені відомі наступні публікації на цьому веб-сайті:

але вони не відповідають на моє запитання. Чи є документи з цього приводу? Чи є відомі застереження, яких слід виконувати?

— kjetil b halvorsen
джерело

1

Можуть вас зацікавити: aje.oxfordjournals.org/content/162/3/199.full

— StatsStudent

Також цей Q&A stats.stackexchange.com/questions/18595/… може допомогти.

— mdewey

1

Я не знаю, чи потрібен вам ще відповідь на це питання, але у мене є аналогічна проблема, в якій я хотів би використати регресію Пуассона. Запускаючи свій код, я виявив, що якщо встановити модель як

model <- glm(y ~ b + x, family=binomial(logit)

замість вашої регресійної моделі Пуассона виникає той самий результат: підрахунок АБО становить ~ 1,5, як це наближається 1. Отже, я не впевнений, що ваш приклад надає інформацію про можливу проблему із застосуванням регресії Пуассона для двійкових результатів.

— Девід Ф
джерело

1

Проблема з пристосуванням моделі logit, хоча вона не призводить до прогнозованих ризиків, більших за 1, полягає в тому, що коефіцієнт шансів є упередженим оцінкою коефіцієнта ризику і що зміщення різко зростає, коли результат стає більш поширеним. Можна вказати, binomial(link=log)що насправді відповідає моделі відносного ризику, але вона рідко сходиться через перевищення результату.

— АдамО

1

Я вважаю, що використання прямої максимальної ймовірності при правильній функції ймовірності значно покращує оцінку відносного ризику. Ви можете безпосередньо вказати функцію усіченого ризику як прогнозовану швидкість для процесу.

Зазвичай ми використовуємо гессіан для створення КІ для оцінки. Я не досліджував можливості використання цього матриці "B" (м'яса) в помилці Хубера Білого та використання відповідних ризиків для отримання матриці "A" (хліб) ... але я підозрюю, що це може спрацювати! Більш можливо, ви можете використовувати завантажувальний інструмент, щоб отримати помилки моделі, які є надійними для неправильно вказаних середньо-відхильних співвідношень.

## the negative log likelihood for truncated risk function
negLogLik <- function(best, X, y) { 
  pest <- pmin(1, exp(X %*% best))
  -sum(dpois(x = y, lambda = pest, log=TRUE))
}

set.seed(100)

sim <- replicate(100, {
  n <- 200
  X <- cbind(1, 'b'=rbinom(n, 1, 0.5), 'x'=rnorm(n))
  btrue <- c(log(0.3), log(2), 1)
  ptrue <- pmin(1, exp(X %*% matrix(btrue)))
  y <- rbinom(n, 1, ptrue) ## or just take y=ptrue for immediate results
  nlm(f = logLik, p = c(log(mean(y)),0,0), X=X, y=y)$estimate
})

rowMeans(exp(sim))

Дає:

> rowMeans(exp(sim))
[1] 0.3002813 2.0680780 3.0888280

Середній коефіцієнт дає те, що ви хочете.

— АдамО
джерело