Інтервал прогнозування біноміальної випадкової величини

Яка формула (приблизна чи точна) для інтервалу прогнозування біноміальної випадкової величини?

Припустимо, що , і ми спостерігаємо (проведено з ). відомо. $Y \sim \mathsf{Binom}(n, p)$ $y$ $Y$ $n$

Наша мета полягає в тому, щоб отримати інтервал прогнозування на 95% для нового розіграшу від . $Y$

Оцінка балів дорівнює , де . Довірчий інтервал для є простим, але я не можу знайти формулу для інтервалу прогнозування для . Якби ми знали (а не ), то 95-відсотковий інтервал прогнозування просто передбачає пошук квантилів двочлена. Чи є щось очевидне, що я не помічаю? $n\hat{p}$ $\hat{p}=\frac{y}{n}$ $\hat{p}$ $Y$ $p$ $\hat{p}$

confidence-interval binomial prediction-interval

— Статисекер
джерело

Дивіться, які існують небейсові методи для прогнозованого висновку? . У цьому випадку метод, що використовує повороти, недоступний (я не думаю), але ви можете використовувати одну з прогнозованих ймовірностей. Або звичайно, байєсівський підхід.

— Scortchi

Привіт, хлопці, я хотів би скористатися хвилиною, щоб вирішити проблеми, які були порушені. - щодо впевненості в p: мене це не цікавить. - якщо прогнози становлять 95% розподілу: так, саме такі інтервали прогнозування є незалежними від контексту (в регресії ви повинні вважати звичайні помилки, коли довірчі інтервали покладаються на CLT - так, приклад прогнозування кількості голів у монета перевертається правильно. Що робить цю проблему важкою, це те, що ми зараз не "р", а у нас є оцінка.

— Statseeker

@Addison Прочитайте книгу Статистичні інтервали Г. Гана та У. Мекера. Вони пояснюють різницю між довірчими інтервалами, інтервалами прогнозування, інтервалами допуску та достовірними інтервалами Байєса. Інтервал прогнозування 95% не містить 95% розподілу. Це робить те, що роблять найчастіші інтервали. Якщо ви неодноразово здійснюєте вибірку з B (n, p) і використовуєте один і той же метод кожен раз для створення 95% інтервалу передбачення для p, то 95% інтервалів прогнозування буде містити справжнє значення p. Якщо ви хочете покрити 95% розподілу, побудуйте інтервал допуску.

— Майкл Р. Черник

Інтервали допуску покривають відсоток розподілу. Для інтервалу допуску 95% для 90% розподілу ви повторюєте процес багато разів і використовуєте один і той же метод, щоб генерувати інтервал кожен раз, тоді приблизно в 95% випадків принаймні 90% розподілу буде потрапляти в інтервал і 5% часу менше 90% розподілу буде міститися в інтервалі.

— Майкл Р. Черник

Lawless & Fredette (2005), "Інтервали прогнозування частоти і прогнозні розподіли", Biometrika , 92 , 3 - це ще одна хороша довідка, крім тих, за посиланням, яке я дав.

— Scortchi

Гаразд, спробуємо це. Я дам дві відповіді - байєсівський, який, на мою думку, простий і природний, і один із можливих частістських.

Байєсівський розчин

Ми припускаємо, що бета-версія на , i, e., , тому що модель бета-біномії є сполученою, а це означає, що задній розподіл також є бета-розподілом з параметрами , (я використовую для позначення кількості успіхів у випробуваннях, а не ). Таким чином, висновок значно спрощується. Тепер, якщо у вас є деякі попередні знання про ймовірні значення , ви можете використовувати його для встановлення значень та , тобто для визначення вашої бета-версії до цього, інакше ви можете припустити рівномірний (неінформативний) раніше, з $p$ $p \sim Beta(\alpha,\beta)$ $\hat{\alpha}=\alpha+k,\hat{\beta}=\beta+n-k$ $k$ $n$ $y$ $p$ $\alpha$ $\beta$ $\alpha=\beta=1$ або інші неінформативні пріори (див. приклад тут ). У будь-якому випадку, ваша задня частина

$Pr(p|n,k)=Beta(\alpha+k,\beta+n-k)$

За байесівським висновком, все, що має значення, є задня ймовірність, тобто, коли ви це знаєте, ви можете зробити висновки для всіх інших величин у вашій моделі. Ви хочете зробити висновок щодо спостережуваних : зокрема, на вектор нових результатів , де не обов'язково дорівнює . Зокрема, для кожного , ми хочемо обчислити ймовірність досягнення саме успіхів у наступних випробуваннях, враховуючи, що ми отримали успіхів у попередніх випробуваннях; функція задньої прогностичної маси: $y$ $\mathbf{y}=y_1,\dots,y_m$ $m$ $n$ $j=0,\dots,m$ $j$ $m$ $k$ $n$

Однак наша біноміальна модель для означає, що, умовно, коли має певне значення, ймовірність досягнення успіхів у випробуваннях не залежить від минулих результатів: це просто $Y$ $p$ $j$ $m$

$f(j|m,p)=\binom{j}{m} p^j(1-p)^j$

Таким чином вираз стає

$Pr(j|m,n,k)=\int_0^1 \binom{j}{m} p^j(1-p)^j Pr(p|n,k)dp=\int_0^1 \binom{j}{m} p^j(1-p)^j Beta(\alpha+k,\beta+n-k)dp$

Результатом цього інтеграла є відомий розподіл під назвою бета-біноміальний розподіл: пропускаючи уривки, ми отримуємо жахливий вираз

$Pr(j|m,n,k)=\frac{m!}{j!(m-j)!}\frac{\Gamma(\alpha+\beta+n)}{\Gamma(\alpha+k)\Gamma(\beta+n-k)}\frac{\Gamma(\alpha+k+j)\Gamma(\beta+n+m-k-j)}{\Gamma(\alpha+\beta+n+m)}$

Наша точкова оцінка для урахуванням квадратичної втрати, звичайно, є середнім значенням цього розподілу, тобто $j$

$\mu=\frac{m(\alpha+k)}{(\alpha+\beta+n)}$

Тепер давайте розглянемо інтервал прогнозування. Оскільки це дискретний розподіл, у нас немає виразу закритої форми для , так що . Причина полягає в тому, що залежно від того, як ви визначаєте квантил, для дискретного розподілу квантильна функція є або не функцією, або є розривною функцією. Але це не є великою проблемою: для малого ви можете просто записати ймовірності і звідси знайди такий, що $[j_1,j_2]$ $Pr(j_1\leq j \leq j_2)= 0.95$ $m$ $m$ $Pr(j=0|m,n,k),Pr(j\leq 1|m,n,k),\dots,Pr(j \leq m-1|m,n,k)$ $j_1,j_2$

$Pr(j_1\leq j \leq j_2)=Pr(j\leq j_2|m,n,k)-Pr(j < j_1|m,n,k)\geq 0.95$

Звичайно, ви знайдете більше однієї пари, тому в ідеалі ви б шукали найменшого такого, щоб вищезазначене було задоволено. Зауважте, що $[j_1,j_2]$

$Pr(j=0|m,n,k)=p_0,Pr(j\leq 1|m,n,k)=p_1,\dots,Pr(j \leq m-1|m,n,k)=p_{m-1}$

є лише значеннями CMF (функції накопичення маси) бета-біноміального розподілу, і як таке існує вираз закритої форми , але це з точки зору узагальненої гіпергеометричної функції і, таким чином, є досить складним. Я вважаю за краще просто встановити пакет R extraDistrі закликати pbbinomобчислити CMF бета-біноміального розподілу. Зокрема, якщо ви хочете за один раз обчислити всі ймовірності , просто напишіть: $p_0,\dots,p_{m-1}$

library(extraDistr)  
jvec <- seq(0, m-1, by = 1) 
probs <- pbbinom(jvec, m, alpha = alpha + k, beta = beta + n - k)

де alphaі betaє значення параметрів вашої бета-версії, тобто та (таким чином, 1, якщо ви використовуєте рівномірне попереднє значення над ). Звичайно, все було б набагато простіше, якби R забезпечила квантильну функцію для бета-біноміального розподілу, але, на жаль, це не відбувається. $\alpha$ $\beta$ $p$

Практичний приклад з байєсівським рішенням

Нехай , (таким чином ми спочатку спостерігали 70 успіхів у 100 випробуваннях). Ми хочемо бальної оцінки та 95% -ного інтервалу прогнозування кількості успіхів у наступних випробувань. Потім $n=100$ $k=70$ $j$ $m=20$

n <- 100
k <- 70
m <- 20
alpha <- 1
beta  <- 1

де я вважав рівномірний попередній : залежно від попередніх знань для вашої конкретної заявки, це може бути, а може і не бути корисним попереднім. Таким чином $p$

bayesian_point_estimate <- m * (alpha + k)/(alpha + beta + n) #13.92157

Очевидно, що неціла оцінка для не має сенсу, тому ми можемо просто округлити до найближчого цілого числа (14). Потім для інтервалу прогнозування: $j$

jvec <- seq(0, m-1, by = 1)
library(extraDistr)
probabilities <- pbbinom(jvec, m, alpha = alpha + k, beta = beta + n - k)

Ймовірності є

> probabilities
 [1] 1.335244e-09 3.925617e-08 5.686014e-07 5.398876e-06
 [5] 3.772061e-05 2.063557e-04 9.183707e-04 3.410423e-03
 [9] 1.075618e-02 2.917888e-02 6.872028e-02 1.415124e-01
[13] 2.563000e-01 4.105894e-01 5.857286e-01 7.511380e-01
[17] 8.781487e-01 9.546188e-01 9.886056e-01 9.985556e-01

Для інтервалу ймовірностей з рівним хвостом ми хочемо, щоб найменший таким, що а найбільший таким, що . Таким чином, у нас буде $j_2$ $Pr(j\leq j_2|m,n,k)\ge 0.975$ $j_1$ $Pr(j < j_1|m,n,k)=Pr(j \le j_1-1|m,n,k)\le 0.025$

$Pr(j_1\leq j \leq j_2|m,n,k)=Pr(j\leq j_2|m,n,k)-Pr(j < j_1|m,n,k)\ge 0.975-0.025=0.95$

Таким чином, переглядаючи наведені вище ймовірності, ми бачимо, що і . Імовірність цього байєсівського інтервалу прогнозування становить 0,9778494, що більше 0,95. Ми могли б знайти більш короткі інтервали, такі, що , але в цьому випадку принаймні одна з двох нерівностей для хвостових ймовірностей не була б задоволена. $j_2=18$ $j_1=9$ $Pr(j_1\leq j \leq j_2|m,n,k)\ge 0.95$

Часте рішення

Я буду стежити за лікуванням Крішнаморті та Пенга, 2011 рік . Нехай і незалежно розподілені біноміном. Ми хочемо інтервал прогнозування для , заснований на спостереженні . Іншими словами, шукаємо таким, що: $Y\sim Binom(m,p)$ $X\sim Binom(n,p)$ $1-2\alpha-$ $Y$ $X$ $I=[L(X;n,m,\alpha),U(X;n,m,\alpha)]$

$Pr_{X,Y}(Y\in I)=Pr_{X,Y}(L(X;n,m,\alpha)\leq Y\leq U(X;n,m,\alpha)]\geq 1-2\alpha$

" " пояснюється тим, що ми маємо справу з дискретною випадковою змінною, і тому ми не можемо очікувати отримання точного покриття ... але ми можемо шукати інтервал, який завжди має принаймні номінальне покриття, таким чином, консервативний інтервал. Тепер можна довести, що умовний розподіл заданий є гіпергеометричним з розміром вибірки , кількістю успіхів у популяції та чисельністю популяції . Таким чином, умовний pmf є $\geq 1-2\alpha$ $X$ $X+Y=k+j=s$ $s$ $n$ $n+m$

$Pr(X=k|X+Y=s,n,n+m)=\frac{\binom{n}{k}\binom{m}{s-k}}{\binom{m+n}{s}}$

Таким чином, умовний CDF заданий є $X$ $X+Y=s$

$Pr(X\leq k|s,n,n+m)=H(k;s,n,n+m)=\sum_{i=0}^k\frac{\binom{n}{i}\binom{m}{s-i}}{\binom{m+n}{s}}$

Перша чудова річ у цьому CDF - це те, що він не залежить від , про який ми не знаємо. Друга чудова річ полягає в тому, що вона дозволяє легко знайти наш PI: насправді, якщо ми спостерігали значення з X, то нижня межа прогнозування є найменшим цілим числом таким, що $p$ $k$ $1-\alpha$ $L$

$Pr(X\geq k|k+L,n,n+m)=1-H(k-1;k+L,n,n+m)>\alpha$

відповідно, верхня межа прогнозування є найбільшим цілим числом, таким, що $1-\alpha$

$Pr(X\leq k|k+U,n,n+m)=H(k;k+U,n,n+m)>\alpha$

Таким чином, - інтервал прогнозування для покриття щонайменше . Зауважимо, що коли близький до 0 або 1, цей інтервал є консервативним навіть для великих , , тобто його охоплення досить більше, ніж . $[L,U]$ $Y$ $1-2\alpha$ $p$ $n$ $m$ $1-2\alpha$

Практичний приклад з рішенням Frequentist

Той самий параметр, що і раніше, але нам не потрібно вказувати та (немає пріорів у програмі Frequentist): $\alpha$ $\beta$

n <- 100
k <- 70
m <- 20

Тепер бальна оцінка отримується з використанням оцінки MLE для ймовірності успіху , що в свою чергу призводить до наступної оцінки кількості успіхів у випробуваннях: $\hat{p}=\frac{k}{n}$ $m$

frequentist_point_estimate <- m * k/n #14

Для інтервалу прогнозування процедура дещо інша. Шукаємо найбільшу таку, що , таким чином давайте обчислимо вищенаведений вираз для всіх в : $U$ $Pr(X\leq k|k+U,n,n+m)=H(k;k+U,n,n+m)>\alpha$ $U$ $[0,m]$

jvec <- seq(0, m, by = 1)
probabilities <- phyper(k,n,m,k+jvec)

Ми можемо бачити, що найбільший такий, що ймовірність все-таки більша за 0,025 $U$

jvec[which.min(probabilities > 0.025) - 1] # 18

Те саме, що і для байєсівського підходу. Нижня межа прогнозування - найменше ціле число, таке, що , таким чином $L$ $Pr(X\geq k|k+L,n,n+m)=1-H(k-1;k+L,n,n+m)>\alpha$

probabilities <- 1-phyper(k-1,n,m,k+jvec)
jvec[which.max(probabilities > 0.025) - 1] # 8

Таким чином, наш частолістський "точний" інтервал передбачення становить . $[L,U]=[8,18]$

— DeltaIV
джерело