Чи існує надійний непараметричний інтервал довіри для середнього косого розподілу?


30

Дуже перекошені розподіли, такі як log-normal, не призводять до точних довірчих інтервалів завантаження. Ось приклад, який показує, що область лівого і правого хвостів далека від ідеальних 0,025, незалежно від того, який метод завантажувального пристрою ви намагаєтеся виконати в R:

require(boot)
n    <- 25
B    <- 1000
nsim <- 1000
set.seed(1)
which <- c('basic', 'perc', 'norm', 'bca', 'stud')
mul <- 0; sdl <- 1.65   # on log scale
dist <- c('normal', 'lognormal')[2]
switch(dist, normal    = {g <- function(x) x; mu <- mul},
             lognormal = {g <- exp; mu <- exp(mul + sdl * sdl / 2)})
count <- matrix(0, nrow=length(which), ncol=2,
                dimnames=list(which, c('lower', 'upper')))
stat <- function(x, j) {
## See http://www.psychology.mcmaster.ca/bennett/boot09/percentileT.pdf
  x <- x[j]
  m <- mean(x)
  s <- sd(x)
  n <- length(x)
  sem <- s / sqrt(n)
  m.var <- sem ^ 2
  c(m, m.var)
}
for(i in 1 : nsim) {
  if(i %% 100 == 0) cat(i, '')
  x <- g(rnorm(n, mul, sdl))
  b  <- boot(x, stat, R=B)
  ci <- boot.ci(b, type=which)
  for(w in which) {
    nam <- switch(w, perc='percent', norm='normal', basic='basic',
                  stud='student', bca='bca')
    z <- rev(rev(ci[[nam]])[1:2])
    count[w, 'lower'] <- count[w, 'lower'] + (z[1] > mu)
    count[w, 'upper'] <- count[w, 'upper'] + (z[2] < mu)
  }
}
cat('\n')
count / nsim

Результат нижче:

      lower upper
basic 0.000 0.329
perc  0.003 0.257
norm  0.000 0.287
bca   0.015 0.185
stud  0.005 0.129

Для одиничних завантажувальних систем все ще не забезпечується достатньо точного покриття:n=400

      lower upper
basic 0.001 0.114
perc  0.005 0.093
norm  0.002 0.102
bca   0.017 0.067
stud  0.011 0.058

Емпірична ймовірність також не забезпечує точних довірчих інтервалів при відборі проб з лонормального розподілу.

λ

Щоб відновити цілі, я шукаю загальноприйнятний підхід для отримання інтервалу довіри для населення, що означає таке

  1. інтервал несиметричний, якщо необмежений розподіл даних несиметричний
  2. інтервал має правильне покриття в обох хвостах (наприклад, ймовірність помилки 0,025 в обох)
  3. процедура не вимагає від аналітика нічого конкретизувати про базовий розподіл або перетворення, необхідне для розподілу симетричним

tμ=0,σ=1.65n=20000

Продовжуючи думати про це, є два широких способи концептуалізації проблеми, яку я хотів би обговорити.

  1. n=201.28×t
  2. Навіть незважаючи на те, що жоден завантажувальний пристрій не дасть належно точних меж надійності для зразків із надзвичайно перекошених розподілів, подвійний завантажувальний пристрій може значно покращити охоплення надійності в обох хвостах. Nankervis має хороші результати та забезпечує відмінний алгоритм обчислень. Але жодне програмне забезпечення я не міг знайти реалізувати це.

Код R, що ілюструє 1. вище:

## Exact CI for median from DescTools package SignTest.default
## See also ttp://www.stat.umn.edu/geyer/old03/5102/notes/rank.pdf,
## http://de.scribd.com/doc/75941305/Confidence-Interval-for-Median-Based-on-Sign-Test
cimed <- function(x, alpha=0.05, na.rm=FALSE) {
  if(na.rm) x <- x[! is.na(x)]
  n <- length(x)
  k <- qbinom(p=alpha / 2, size=n, prob=0.5, lower.tail=TRUE)
  ## Actual CL: 1 - 2 * pbinom(k - 1, size=n, prob=0.5) >= 1 - alpha
  sort(x)[c(k, n - k + 1)]
}

n <- 20
m <- 20000
cil <- cilt <- 0
z <- qt(0.975, n - 1)

for(i in 1 : m) {
  x <- rnorm(n)
  cil  <- cil + diff(cimed(x))
  cilt <- cilt + 2 * z * sqrt(var(x) / n)
}
cil  <- cil / m
cilt <- cilt / m

c(cil, cilt, cilt / cil, cil / cilt)

1
Це обчислювально інтенсивно, але що робити, якщо ви взяли емпіричний cdf, почали безладно генерувати броунівські мости; кожен броунівський міст представляє дельту між ecdf та деяким гіпотетичним cdf. Обчисліть середнє, використовуючи гіпотетичний cdf і зважте його за коефіцієнтом, визначеним тестом KS. Повторюючи це деякий час, ви матимете зважений набір даних із засобів і зможете обчислити довірчий інтервал.
Нір Фрідман

У мене немає гіпотетичного cdf. І що буде, якби ви просто використали верхню та нижню області довіри 0,95 від KS та обчислили середнє значення для них, тобто, чи було б це жахливо консервативно.
Френк Харрелл

Гіпотетичний cdf вводиться шляхом додавання до емпіричного cdf випадково генерованого броунівського моста. Крім того, я не пропоную брати середню з довіри. Я пропоную отримати багато засобів, генеруючи безліч гіпотетичних розподілів, належним чином зваживши, а потім отримавши інтервал довіри. Це, по суті, лише інший підхід до завантаження, але я думаю, що результат може бути іншим.
Нір Фрідман

Було б цікаво побачити, наскільки ефективно це можна запрограмувати та наскільки точно охоплює довірчий інтервал. Дякую за пропозицію. Цікаво, чи міг би імітувати байєсівський завантажувальний апарат. Я спробував завантажувальний пристрій Bayesian в іншому контексті, і це не покращило охоплення інтервалу довіри.
Френк Харрелл

Відповіді:


11

Я дещо песимістичний щодо такого непараметричного методу, принаймні без введення якихось обмежень на базовий розподіл.

Мої міркування в тому , що завжди буде розподіл , яке руйнує справжню ймовірність покриття для будь-якого кінцевогон (хоча як н, це поширення стане все більш патологічним), або довірчий інтервал повинен бути довільно великим.

Для ілюстрації ви можете уявити розподіл, який виглядає як нормальний до деякого значення α, але після αстає надзвичайно правильно перекошеним. Це може мати необмежений вплив на середню величину розповсюдження та при натисканніαНаскільки це можливо, це може мати довільно невелику ймовірність внесення його до вашої вибірки. Тож ви можете собі це уявитин, ви можете вибрати α бути настільки великим, що всі точки у вашій вибірці мають надзвичайно високу ймовірність виглядати так, як це відбувається від нормального розподілу із середнім = 0, sd = 1, але ви також можете мати будь-яке справжнє значення.

Тож якщо ви шукаєте належну асимптотику покриття, звичайно, цього можна досягти CLT. Однак ваше запитання означає, що ви (цілком розумно) зацікавлені в кінцевому висвітленні. Як показує мій приклад, завжди буде патологічний випадок, який руйнує будь-яку ІТ кінцевої довжини.

Тепер у вас все ще може бути непараметрична ІС, яка досягає хорошого кінцевого покриття, додаючи обмеження у свій розподіл. Наприклад, обмеження log-увігнення є непараметричним обмеженням. Однак ця проблема здається неадекватною, оскільки log-normal не є увігнутим.

Можливо, щоб проілюструвати, наскільки складною може бути ваша проблема, я провів неопубліковану роботу над іншим обмеженням: зворотний опуклий (якщо натиснути на мій профіль, у мене є посилання на особисту сторінку, на якій є передрук). Це обмеження включає більшість , але не всі log-нормали. Ви також можете бачити, що для цього обмеження хвости можуть бути "довільно важкими", тобто для будь-якого зворотного опуклого розподілу до деякогоα, ви можете мати досить важкі хвости, що середнє значення буде настільки великим, як вам подобається.


2
Відмінні думки. Я вагаюся, вимагаючи таких видів обмежень, тому що я бачу бімодальні розподіли та інші складності досить часто.
Френк Харрелл

1
@FrankHarrell: було виконано роботу з сумішальними моделями з непараметричними вхідними компонентами. Однак наразі не можу уявити, що існують хороші методи для створення впевненості в загальній середній величині, особливо якщо кількість компонентів не відома заздалегідь.
Кліф АВ

2

One of the underlying assumptions of any sample is representativeness. The longer the tails of a distribution the less likely any small sample is going to be representative enough for any method to reliably solve for the CI because the sample won't be able to represent the distribution.

For example, running a simple perc CI on an exponential distribution with a sample size of 250 yields pretty ok results. They are much better than a with a sample of 25, although still not ideal.

I agree with Cliff AB that there won't be a general solution but you don't have to hypothesize extreme distributions. There won't be anything that works broadly with small samples. And in some cases the samples might have to be very large (but it would be nice to be wrong).

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.