Як отримати довірчий інтервал для процентиля?


15

У мене є маса необроблених значень даних, що є доларовими сумами, і я хочу знайти довірчий інтервал для відсотків від цих даних. Чи є формула для такого довірчого інтервалу?

Відповіді:


21

Це питання, яке охоплює загальну ситуацію, заслуговує на просту, не приблизну відповідь. На щастя, є одна.

Припустимо, Х1,,Хн є незалежними значеннями від невідомого розподілу Ж , qго квантиль якого я напишу Ж-1(q) . Це означає, що кожен Хi має шанс (принаймні) q бути меншим або рівним Ж-1(q) . Отже, число Хi менше або рівне Ж-1(q) має двочлен (н,q) розподіл.

Мотивовані цим простим роздумом, Джеральд Хан та Вільям Мекер у своєму підручнику " Статистичні інтервали" (Wiley 1991) пишуть

Отримується двосторонній консервативний вільний від розподілу 100(1-α)% інтервал довіри для Ж-1(q) ... як [Х(л),Х(у)]

де - статистика порядку вибірки. Вони продовжують говоритиХ(1)Х(2)Х(н)

Можна вибирати цілі числа симетрично (або майже симетрично) навколо q ( n + 1 ) і максимально близько один до одного з дотриманням вимог, що B ( u - 1 ; n , q ) - B ( l - 1 ; n , q ) 1 - α .0лунq(н+1)

(1)Б(у-1;н,q)-Б(л-1;н,q)1-α.

Вираз ліворуч - це ймовірність, що змінна Binomial має одне із значень { l , l + 1 , , u - 1 } . Очевидно, це ймовірність, що кількість значень даних X i, що потрапляють у нижчі 100 q % розподілу, не є ні занадто малою (менше l ), ні занадто великою ( u або більшою).(н,q){л,л+1,,у-1}Хi100q%лу

Хан і Мікер випливають з корисними зауваженнями, які я процитую.

Попередній інтервал є консервативним, оскільки фактичний рівень довіри, заданий лівою частиною рівняння , перевищує задане значення 1 - α . ...(1)1-α

Іноді неможливо побудувати статистичний інтервал без розподілу, який має хоча б бажаний рівень довіри. Ця проблема особливо гостра при оцінці відсотків у хвості розподілу з невеликої вибірки. ... У деяких випадках аналітик може впоратися з цією проблемою, вибравши і u несиметрично. Іншою альтернативою може бути використання зниженого рівня довіри.лу


Давайте попрацюємо на прикладі (також надані Hahn & Meeker). Вони постачають впорядкований набір "вимірювань сполуки в хімічному процесі" і просять 100 ( 1 - α ) = 95 % довірчий інтервал для q = 0,90 перцентиля. Вони стверджують, що l = 85 і u = 97 буде працювати.н=100100(1-α)=95%q=0,90л=85у=97

Малюнок, що показує біноміальний (100, 0,90) розподіл

Загальна ймовірність цього інтервалу, як показано синіми смужками на малюнку, становить : це так близько, як можна дістатись до 95 % , але все ще бути вище цього, вибравши два обрізи та виключивши всі шанси на лівий хвіст і правий хвіст, що знаходиться поза межами цих обрізів.95.3%95%

Ось дані, наведені в порядку, не виводячи значення з середини:81

1,491,662.0524.3324,7225.4625.6725,7726.6428.2828.2829.0729.1631.1431,8333.2437.3253.4358.11

по величині в 24,33 і 97 - е по величині є 33,24 . Отже, інтервал становить [ 24,33 , 33,24 ] .85го24.3397го33.24[24.33,33.24]

Давайте ще раз інтерпретуємо це. Ця процедура повинна мати принаймні шансів покрити 90- й перцентиль. Якщо цей перцентиль насправді перевищує 33,24 , це означає, що ми спостерігали 97 або більше зі 100 значень у нашому зразку, які нижче 90- го перцентилету. Це занадто багато. Якщо цей перцентиль менший за 24,33 , це означає, що у нашому зразку ми спостерігали 84 або менші значення, що нижче 90- го перцентилету. Це занадто мало.95%90го33.249710090го24.338490го В будь-якому випадку - точно так, як зазначено червоними смужками на рисунку - це буде свідченням проти перцентиля, що лежить в цьому інтервалі.90го


Один із способів знайти хороший вибір і u - це пошук відповідно до ваших потреб. Ось це метод , який починається з симетричним приблизними інтервалом , а потім пошук шляхом зміни як л і U на величині до 2 , з тим , щоб знайти інтервал з хорошим покриттям (якщо це можливо). Це проілюстровано кодом. Він встановлюється для перевірки покриття в попередньому прикладі на нормальне розподіл. Його вихід єлулу2R

Середнє покриття моделювання склало 0,9503; очікуване покриття - 0,9523

Згода між імітацією та очікуванням відмінна.

#
# Near-symmetric distribution-free confidence interval for a quantile `q`.
# Returns indexes into the order statistics.
#
quantile.CI <- function(n, q, alpha=0.05) {
  #
  # Search over a small range of upper and lower order statistics for the 
  # closest coverage to 1-alpha (but not less than it, if possible).
  #
  u <- qbinom(1-alpha/2, n, q) + (-2:2) + 1
  l <- qbinom(alpha/2, n, q) + (-2:2)
  u[u > n] <- Inf
  l[l < 0] <- -Inf
  coverage <- outer(l, u, function(a,b) pbinom(b-1,n,q) - pbinom(a-1,n,q))
  if (max(coverage) < 1-alpha) i <- which(coverage==max(coverage)) else
    i <- which(coverage == min(coverage[coverage >= 1-alpha]))
  i <- i[1]
  #
  # Return the order statistics and the actual coverage.
  #
  u <- rep(u, each=5)[i]
  l <- rep(l, 5)[i]
  return(list(Interval=c(l,u), Coverage=coverage[i]))
}
#
# Example: test coverage via simulation.
#
n <- 100      # Sample size
q <- 0.90     # Percentile
#
# You only have to compute the order statistics once for any given (n,q).
#
lu <- quantile.CI(n, q)$Interval
#
# Generate many random samples from a known distribution and compute 
# CIs from those samples.
#
set.seed(17)
n.sim <- 1e4
index <- function(x, i) ifelse(i==Inf, Inf, ifelse(i==-Inf, -Inf, x[i]))
sim <- replicate(n.sim, index(sort(rnorm(n)), lu))
#
# Compute the proportion of those intervals that cover the percentile.
#
F.q <- qnorm(q)
covers <- sim[1, ] <= F.q & F.q <= sim[2, ]
#
# Report the result.
#
message("Simulation mean coverage was ", signif(mean(covers), 4), 
        "; expected coverage is ", signif(quantile.CI(n,q)$Coverage, 4))

4

Виведення

τqτХЖХ-1(τ)q^τ=Ж^-1(τ)

н(q^τ-qτ)

По-перше, нам потрібен асимптотичний розподіл емпіричного cdf.

Ж^(х)=1н1{Хi<х}1{Хi<х}П(Хi<х)=Ж(х)Ж(х)(1-Ж(х))

н(Ж^(х)-Ж(х))N(0,Ж(х)(1-Ж(х)))(1)

Тепер, оскільки інверс - це неперервна функція, ми можемо використовувати метод дельти.

н(у¯-мку)N(0,σ2)г()н(г(у¯)-г(мку))N(0,σ2(г'(мку))2)

х=qτг()=Ж-1()

н(Ж-1(Ж^(qτ))-Ж-1(Ж(qτ)))=н(q^τ-qτ)

Ж-1(Ж^(qτ))Ж^-1(Ж^(qτ))=q^τ

Тепер застосуйте згаданий вище метод дельти.

ггхЖ-1(х)=1f(Ж-1(х))

н(q^τ-qτ)N(0,Ж(qτ)(1-Ж(qτ))f(Ж-1(Ж(qτ)))2)=N(0,Ж(qτ)(1-Ж(qτ))f(qτ)2)

Потім, щоб побудувати довірчий інтервал, нам потрібно обчислити стандартну помилку, підключивши примірники аналогів кожного з доданків у дисперсії вище:

Результат

се(q^τ)=Ж^(q^τ)(1-Ж^(q^τ))нf^(q^τ)2= τ(1-τ)нf^(q^τ)2

СЯ0,95(q^τ)=q^τ±1,96се(q^τ)

Х


1
Чи можете ви розширити свою відповідь вмістом із пов’язаної статті? Посилання можуть не працювати вічно, і тоді ця відповідь стане менш корисною
Енді,

1
Яка перевага цього асимптотичного результату на основі оцінок щільності порівняно з розподілом, вільним цибасом на біноміальний розподіл?
Майкл М


Так, чи слід додати це посилання ще раз? Я думаю, що це добре відомий результат. Я бачив це в класі раніше, і це не важко знайти в Google. У такому випадку, чи краще зв’язатись із ним або ввести його або обидва?
bmciv

Я б сказав і те, і що ви повинні відредагувати його, якщо це цитується / виводиться повністю з нього заради належного віднесення. В іншому випадку це може не мати значення, чи редагуєте ви його, але в цілому політика Stack Exchange полягає в тому, щоб відмовитись від відповідей лише на посилання, щоб уникнути гниття посилань і, як правило, ідея (ідея бути незалежним сховищем, а не індексом посилань - але Я не впевнений, наскільки цей сценарій більше, ніж уявний "слизький схил").
Нік Стаунер
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.