Плутати про довірчий інтервал


10

Мене бентежить поняття інтервал довіри. Зокрема, припустимо, що існує гауссова змінна з відомою, і мене цікавить нижня межа середнього рівня з рівнем довіри .ХN(мк,σ)σмкL95%

Я буду робити експеримент разів і спостерігати за , , , , .5Х1Х2Х3Х4Х5

Варіант 1: Я розглядаю кожен зразок окремо, і можу обчислити для кожного . І тоді я думаю, що є певний спосіб (я не знаю, як) обчислити фактичну нижню межу з цих 5 .мкL=Хi-σzХiмкL

Варіант 2: З іншого боку, якщо я беру , я можу обчислити . (припустимо, що є нормальним, ми можемо використовувати і t-stat.)Т=(Х1+Х2+Х3+Х4+Х5)/5мкL=Т-σ/5zТ

Чи існує якийсь інший метод, крім варіанту 2, для обчислення нижньої межі на основі зразків? А для варіанту 1, чи є спосіб обчислити нижню межу на основі 5 обчислених нижньої межі?5

Відповіді:


12

Це велике запитання, оскільки він вивчає можливість альтернативних процедур і пропонує нам подумати про те, чому і як одна процедура може бути кращою за іншу.

Коротка відповідь полягає в тому, що існує нескінченно багато способів, як ми могли б розробити процедуру отримання нижчої межі довіри для середнього рівня, але деякі з них є кращими, а деякі гіршими (у певному сенсі і чітко визначеним). Варіант 2 - це відмінна процедура, тому що людині, яка використовує її, потрібно зібрати менше, ніж удвічі менше даних, ніж людині, яка використовує Варіант 1, щоб отримати результати порівняльної якості. Удвічі більше даних зазвичай означає половину бюджету та половину часу, тому ми говоримо про істотну та економічно важливу різницю. Це дає конкретну демонстрацію значення статистичної теорії.


Замість того, щоб переосмислити теорію, про яку існує багато чудових облікових записів підручників, давайте швидко вивчимо три нижчі межі довіри (LCL) для незалежних нормальних змінних відомих стандартних відхилень. Я обрав три природних та перспективних, запропонованих запитанням. Кожен з них визначається бажаним рівнем довіри :1 - αn1α

  • Варіант 1а, процедура "хв" . Нижня межа довіри встановлюється рівною . Значення числа визначається таким чином, що ймовірність того, що перевищить справжнє середнє значення це просто ; тобто .k min α , n , σ t min μ α Pr ( t min > μ ) = αtmin=min(X1,X2,,Xn)kα,n,σminσкα,н,σхвтхвмкαПр(тхв>мк)=α

  • Варіант 1b, процедура "max" . Нижня межа довіри встановлюється рівною . Значення числа визначається так, що ймовірність того, що перевищить справжнє середнє значення є просто ; тобто .k max α , n , σ t max μ α Pr ( t max > μ ) = αтмакс=макс(Х1,Х2,,Хн)-кα,н,σмаксσкα,н,σмакстмаксмкαПр(тмакс>мк)=α

  • Варіант 2, процедура «середня» . Нижня межа довіри встановлюється рівною . Значення числа визначається таким чином, що ймовірність того, що перевищить справжню середню є просто ; тобто .k середня α , n , σ t середня μ α Pr ( t середня > μ ) = αтмаю на увазі=маю на увазі(Х1,Х2,,Хн)-кα,н,σмаю на увазіσкα,н,σмаю на увазітмаю на увазімкαПр(тмаю на увазі>мк)=α

Як відомо, де ; - сукупна функція ймовірності стандартного нормального розподілу. Це формула, наведена у питанні. Математична стенограма є Φ(zα)=1-αΦкα,н,σмаю на увазі=zα/нΦ(zα)=1-αΦ

  • кα,н,σмаю на увазі=Φ-1(1-α)/н.

Формули для процедур min та max менш відомі, але їх легко визначити:

  • кα,н,σхв=Φ-1(1-α1/н) .

  • кα,н,σмакс=Φ-1((1-α)1/н) .

За допомогою моделювання ми можемо побачити, що всі три формули працюють. Наступний Rкод проводить експеримент n.trialsокремо та повідомляє про всі три LCL для кожного випробування:

simulate <- function(n.trials=100, alpha=.05, n=5) {
  z.min <- qnorm(1-alpha^(1/n))
  z.mean <- qnorm(1-alpha) / sqrt(n)
  z.max <- qnorm((1-alpha)^(1/n))
  f <- function() {
    x <- rnorm(n); 
    c(max=max(x) - z.max, min=min(x) - z.min, mean=mean(x) - z.mean)
  }    
  replicate(n.trials, f())
}

(Код не заважає працювати із загальними нормальними розподілами: оскільки ми вільні у виборі одиниць вимірювання та нуля шкали вимірювання, достатньо вивчити випадок , Ось чому жодна з формул для різних насправді не залежить від .)σ = 1 k α , n , σ σмк=0σ=1кα,н,σσ

10 000 випробувань забезпечать достатню точність. Давайте запустимо моделювання та обчислимо частоту, з якою кожна процедура не дає межі довіри, меншої за справжнє середнє:

set.seed(17)
sim <- simulate(10000, alpha=.05, n=5)
apply(sim > 0, 1, mean)

Вихід є

   max    min   mean 
0.0515 0.0527 0.0520

Ці частоти досить близькі до встановленого значення що ми можемо задовольнити, що всі три процедури працюють так, як рекламуються: кожна з них виробляє 95% нижчу межу довіри для середнього значення.α=.05

(Якщо ви стурбовані тим, що ці частоти незначно відрізняються від , ви можете провести більше випробувань. З мільйоном випробувань вони ще ближче до : .).05 ( 0.050547 , 0.049877 , 0.050274 ).05.05(0,050547,0,049877,0,050274)

Однак одне, що ми хотіли б про будь-яку процедуру LCL, це те, що вона не тільки повинна корегувати передбачувану частку часу, але має бути, як правило, близькою до правильної. Наприклад, уявіть собі (гіпотетичного) статистику, який в силу глибокої релігійної чутливості може проконсультуватися з дельфійським оракулом (Аполлона) замість того, щоб збирати дані і робити обчислення LCL. Коли вона попросить у Бога 95% LCL, бог просто божествуватиме справжню середину і скаже їй це - адже він ідеальний. Але, оскільки бог не бажає повною мірою ділитися своїми здібностями з людством (яке повинно залишатися помилковим), 5% часу він дасть ЛКП, що становить 100 σХ1,Х2,,Хн100σзанадто висока. Ця дельфійська процедура також є 95% LCL - але це було б страшно використовувати на практиці через ризик того, що вона призведе до справді жахливої ​​межі.

Ми можемо оцінити, наскільки точними є три наші процедури LCL. Хороший спосіб полягає у перегляді їх розподілу вибірки: так само, як і гістограми багатьох модельованих значень. Ось вони. Перш за все, код для їх створення:

dx <- -min(sim)/12
breaks <- seq(from=min(sim), to=max(sim)+dx, by=dx)
par(mfcol=c(1,3))
tmp <- sapply(c("min", "max", "mean"), function(s) {
  hist(sim[s,], breaks=breaks, col="#70C0E0", 
       main=paste("Histogram of", s, "procedure"), 
       yaxt="n", ylab="", xlab="LCL");
  hist(sim[s, sim[s,] > 0], breaks=breaks, col="Red", add=TRUE)
})

Гістограми

Вони зображені на однакових осях x (але дещо різними вертикальними осями). Що нас цікавить

  1. Червоні ділянки праворуч від чиї області представляють частоту, з якою процедури не занижують середнє значення - приблизно дорівнюють бажаній кількості, . (Ми це вже підтвердили чисельно.)α = .050α=.05

  2. У спреди результатів моделювання. Очевидно, що найправіша гістограма є вужчою, ніж дві інші: вона описує процедуру, яка дійсно занижує середнє значення (рівне ) повністю в % часу, але навіть коли це відбувається, це заниження майже завжди знаходиться в межах від справжнє значення. Інші дві гістограми мають схильність недооцінювати справжню середню на трохи більше, приблизно до занадто низька. Крім того, коли вони завищують справжню середню, вони, як правило, переоцінюють її більш ніж правою процедурою. Ці якості роблять їх поступаючись крайній правій гістограмі.0952σ3σ

Крайня права кістограма описує варіант 2, звичайну процедуру LCL.

Одним із показників цих спредів є стандартне відхилення результатів моделювання:

> apply(sim, 1, sd)
     max      min     mean 
0.673834 0.677219 0.453829

Ці цифри говорять нам про те, що процедури max і min мають однакові розвороти (приблизно ), а звичайна, середня , процедура має лише приблизно дві третини їх поширення (приблизно ). Це підтверджує свідчення наших очей.0,680,45

Квадрати стандартних відхилень - це відхилення, рівні , та відповідно. Відхилення можуть бути пов'язані з кількістю даних : якщо один аналітик рекомендує процедуру макс (або хв ), то для досягнення вузького поширення, що демонструється звичайною процедурою, їх клієнт повинен був отримати рази більше даних --надто вдвічі більше. Іншими словами, використовуючи Варіант 1, ви б платили за свою інформацію більше вдвічі більше, ніж використовуючи Варіант 2.0,450,450,200,45/0,21


2
Ви ніколи не не здивуєте мене.
Момо

+1 @whuber Це приємна ілюстрація. Описуючи довірчі інтервали завантажувальної стрічки, Ефрон говорить про точність та правильність. Точність полягає в тому, що справжній рівень довіри інтервалу близький до рекламованого значення. Ваші 3 приклади всі точні. Коректність відноситься до найкращого. Для двостороннього довірчого інтервалу, який би означав точний з найменшою шириною (інтервал або обмежений на основі середнього значення у вашому випадку). Ваш приклад цікавий тим, що три методи принаймні дещо конкурентоспроможні.
Майкл Р. Черник

Варіант 1 ОП не є конкурентоспроможним з причин, які я дав у своїй відповіді.
Майкл Р. Черник

@Michael Я погоджуюся, що ваше тлумачення Варіанту 1 не є конкурентоспроможним. Що мені було цікаво - і тут я дослідив - є ще кілька життєздатних тлумачень того, як можна «обчислити фактичну нижню межу» з п'яти окремих, дві з яких я тут вивчив. Я, мабуть, повинен був уважно придивитись і до "середнього" варіанту: він не буде страшно поступатися звичайному розрахунку (приблизно на 40% менш ефективний).
whuber

1

Перший варіант не враховує зменшену дисперсію, яку ви отримуєте від вибірки. Перший варіант дає п'ять нижчих 95% меж довіри для середнього значення, виходячи з вибірки розміром 1 у кожному випадку. Поєднання їх шляхом усереднення не створює межі, яку можна інтерпретувати як нижню 95% -ну межу. Ніхто цього не зробив би. Другий варіант - що робиться. Середнє значення п'яти незалежних спостережень має дисперсію, меншу на 6, ніж дисперсію для одного зразка. Тому це дає вам набагато кращу нижню межу, ніж будь-яка з п’яти, яку ви обчислили першим способом.

Крім того, якщо X можна вважати нормальним, тоді T буде нормальним.i

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.