Інтервал прогнозування для майбутньої частки успіхів у біноміальних умовах


9

Припустимо, я підхожу до біноміальної регресії та отримаю точкові оцінки та дисперсійно-коваріантну матрицю коефіцієнтів регресії. Це дозволить мені отримати ІС для очікуваної частки успіхів у майбутньому експерименті,p, але мені потрібна ІС для спостережуваної пропорції. Було опубліковано кілька пов’язаних відповідей, включаючи моделювання (припустимо, я цього не хочу робити) та посилання на Krishnamoorthya та ін (що не зовсім відповідає на моє запитання).

Моє міркування таке: якщо ми використовуємо просто біноміальну модель, ми змушені вважати це pвідбирають за допомогою нормального розподілу (з відповідним КІ Wald), і тому неможливо отримати CI для спостережуваної пропорції у закритому вигляді. Якщо припустити, щоpвідбирається з бета-розподілу, тоді все набагато простіше, оскільки підрахунок успіхів буде послідовно бета-біноміальним. Нам доведеться припустити, що не визначено визначених параметрів бета-версії,α і β.

Є три питання:

1) Теоретичний: чи нормально використовувати лише точкові оцінки бета-параметрів? Я знаю, що побудувати КІ для подальшого спостереження при множинній лінійній регресії

Y=xβ+ϵ,ϵN(0,σ2)

вони роблять цю дисперсію терміна помилки wrt, σ2. Я вважаю (виправте мене, якщо я помиляюся), що виправданням є те, що на практиціσ2 оцінюється з набагато більшою точністю, ніж коефіцієнти регресії, і ми не отримаємо багато, намагаючись включити невизначеність σ2. Чи подібне обґрунтування застосовується до розрахункових параметрів бета-версії,α і β?

2) Який пакет краще (R: gamlss-bb, betareg, aod?; Я також маю доступ до SAS).

3) Враховуючи оцінені бета-параметри, чи існує (приблизний) ярлик для отримання квантилів (2,5%, 97,5%) для підрахунку майбутніх успіхів або, ще краще, для частки майбутніх успіхів за бета-біноміальним розподілом.


Перше питання: так, це дійсна річ, яку роблять люди, вона називається Емпіричний Байєс: en.wikipedia.org/wiki/Empirical_Bayes_method
Павло

1
Я не думаю, що використання методу XYZ для оцінки параметра моделі може автоматично означати, що нормально ігнорувати невизначеність оцінки під час створення CI для подальшого спостереження. Наприклад, у кількох лінійних регресіях вони використовують OLS замість EB, і невизначеність вσігнорується так само добре. Чому так? Крім того, ця стаття Wiki ніколи не говорить про те, що в ЕБ точність оцінки гіперпараметрів верхнього рівня, як правило, настільки вище, що нормально вважати їх фіксованими для практичних цілей.
Джеймс

1
«Коли справжній розподіл p(ηy) різко пік, інтегральне визначальне p(θy) може не сильно змінитись, замінивши розподіл ймовірностей на η з бальною оцінкою ηщо представляє пік розподілу ». Чи правда це у вашому випадку, залежить від специфіки вашої проблемної області.
Пол

2
Хороше питання! Ви не можете отримати шарнір, але як щодо використання ймовірності профілю? Дивіться, які існують небейсові методи для прогнозованого висновку? .
Scortchi

Відповіді:


1

Я торкнуся всіх 3 частин питання.

Є дві суперечливі проблеми, по-перше, це метод, який ви використовуєте для встановлення регресійної моделі в цьому випадку. Другий - як інтервалювати оцінки від ваших оцінок, щоб передбачити нову оцінку.

якщо ваші змінні відповіді є біноміально розподіленими, ви зазвичай використовуєте або логістичну регресію, або пробіт-регресію (glm з нормальним cdf як функція посилання).

Якщо ви робите логістичну регресію, приймайте відповідь відношенням спостережуваних підрахунків, поділених на відому верхню межу, тобто yi/ni. Потім візьміть ваші прогнози / коваріати і введіть їх у свій R-виклик до функції glm. Повертається об'єкт має все необхідне, щоб виконати решту ваших розрахунків.

x<- rnorm(100, sd=2)
prob_true <- 1/(1+exp(-(1+5*x)))
counts <- rbinom(100, 50,prob_true)
print(d.AD <- data.frame(counts,x))
glm.D93 <- glm(counts/50 ~ x, family = binomial() )

Для лінійної регресійної моделі формула інтервалу прогнозування:

y^i±tnpsy1+1n+(xix¯)2(n1)sx2

Можна використовувати модель лінійної регресії як наближення до glm. Для цього вам слід було б формулу лінійної регресії для лінійної комбінації предикторів, перш ніж зробити перетворення зворотного зв’язку, щоб повернути ймовірності за шкалою 0-1. Код для цього вводиться у функцію R predict.glm (). Ось приклад коду, який також зробить приємний сюжет. ( EDIT : Цей код призначений для довірчого інтервалу, а не для інтервалу прогнозування)

y_hat <- predict(glm.D93, type="link", se.fit=TRUE)
t_np<- qt(.975, 100-2, ncp=0)

ub <- y_hat$fit + t_np * y_hat$se.fit
lb <- y_hat$fit - t_np * y_hat$se.fit

point <- y_hat$fit

p_hat <- glm.D93$family$linkinv(point)
p_hat_lb <- glm.D93$family$linkinv(lb)
p_hat_ub <- glm.D93$family$linkinv(ub)

plot(x,p_hat)
points(x, p_hat_ub, col='red')
points(x, p_hat_lb, col='blue')

Ви можете зробити те ж саме для будь-якого glm, наприклад, Пуассона, зворотного Гаусса, гамма тощо. У кожному випадку робіть інтервал прогнозування за шкалою лінійної комбінації предикторів. Після отримання двох кінцевих точок інтервалу прогнозування ви перетворюєте ці кінцеві точки за допомогою зворотного зв'язку. Для кожного з glms, про який я згадував, зворотний зв'язок може бути іншим, ніж випадок logit, про який я писав тут. Сподіваюсь, це допомагає.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.