Якщо вас цікавить ймовірність інциденту через N днів пацієнтів, які перебувають на палаті, вам потрібна така модель:
mod1 <- glm(incident ~ 1, offset=patients.on.ward, family=binomial)
компенсація являє собою випробування, incident
або 0, або 1, і ймовірність інциденту є постійною (відсутність неоднорідності в тенденції до породження інцидентів), і пацієнти не взаємодіють, щоб викликати інциденти (немає зараження). Крім того, якщо шанс на інцидент невеликий, який саме для вас (або ви обмежили кількість інцидентів, не згадуючи про це нам), ви можете віддати перевагу рецептурі Пуассона
log.patients.on.ward <- log(patients.on.ward)
mod2 <- glm(incident ~ 1, offset=log.patients.on.ward, family=poisson)
де застосовуються ті самі припущення. Зсув реєструється, оскільки кількість пацієнтів, які перебувають на палаті, має пропорційний / мультиплікативний ефект.
Розширюючи другу модель, можливо, ви думаєте, що випадків більше, ніж можна було б очікувати просто через збільшення кількості пацієнтів. Тобто, можливо, пацієнти взаємодіють або є гетерогенними. Отже, ви намагаєтесь
mod3 <- glm(incident ~ 1 + log.patients.on.ward, family=poisson)
Якщо коефіцієнт на log.patients.on.ward
значення суттєво відрізняється від 1, де він був зафіксований mod2
, то справді щось може бути не так у ваших припущеннях про гетерогенність та відсутність зараження. І хоча ви, звичайно, не можете відрізнити ці дві (ані одну від інших відсутніх змінних), тепер у вас є оцінка того, наскільки збільшення кількості пацієнтів, які перебувають на палаті, збільшує частоту / ймовірність інцидентів вище та вище, ніж ви очікувати від випадковості. У просторі параметрів це 1-coef(mod3)[2]
інтервал, похідний від confint
.
Крім того, ви можете просто працювати з кількістю журналу та його коефіцієнтом безпосередньо. Якщо ви просто хочете передбачити ймовірність інциденту, використовуючи кількість пацієнтів, які перебувають на палаті, то ця модель була б простим способом зробити це.
Питання
Чи нормально мати залежні змінні у своєму компенсації? Мені це здається дуже поганою ідеєю, але я не бачу, що ти повинен.
Зсув в регресійних моделях Пуассона exposure
справді є log(exposure)
. Можливо, заплутане використання offset
в біноміальних регресійних моделях R є в основному способом визначення кількості випробувань. Його завжди можна замінити залежною змінною, визначеною як cbind(incidents, patients.on.ward-incidents)
і не зміщеною. Подумайте про це так: у моделі Пуассона він входить з правого боку позаду функції зв’язку журналу, а в моделі Біноміалу - з лівої сторони перед функцією зв'язку logit.