Це велике запитання, оскільки він вивчає можливість альтернативних процедур і пропонує нам подумати про те, чому і як одна процедура може бути кращою за іншу.
Коротка відповідь полягає в тому, що існує нескінченно багато способів, як ми могли б розробити процедуру отримання нижчої межі довіри для середнього рівня, але деякі з них є кращими, а деякі гіршими (у певному сенсі і чітко визначеним). Варіант 2 - це відмінна процедура, тому що людині, яка використовує її, потрібно зібрати менше, ніж удвічі менше даних, ніж людині, яка використовує Варіант 1, щоб отримати результати порівняльної якості. Удвічі більше даних зазвичай означає половину бюджету та половину часу, тому ми говоримо про істотну та економічно важливу різницю. Це дає конкретну демонстрацію значення статистичної теорії.
Замість того, щоб переосмислити теорію, про яку існує багато чудових облікових записів підручників, давайте швидко вивчимо три нижчі межі довіри (LCL) для незалежних нормальних змінних відомих стандартних відхилень. Я обрав три природних та перспективних, запропонованих запитанням. Кожен з них визначається бажаним рівнем довіри :1 - αн1 - α
Варіант 1а, процедура "хв" . Нижня межа довіри встановлюється рівною . Значення числа визначається таким чином, що ймовірність того, що перевищить справжнє середнє значення це просто ; тобто .k min α , n , σ t min μ α Pr ( t min > μ ) = αтхв= хв ( X1, X2, … , Xн) - кхвα , n , σσкхвα , n , σтхвмкαПр ( тхв> μ ) = α
Варіант 1b, процедура "max" . Нижня межа довіри встановлюється рівною . Значення числа визначається так, що ймовірність того, що перевищить справжнє середнє значення є просто ; тобто .k max α , n , σ t max μ α Pr ( t max > μ ) = αтмакс= max ( X1, X2, … , Xн) - кмаксα , n , σσкмаксα , n , σтмаксмкαПр ( тмакс> μ ) = α
Варіант 2, процедура «середня» . Нижня межа довіри встановлюється рівною . Значення числа визначається таким чином, що ймовірність того, що перевищить справжню середню є просто ; тобто .k середня α , n , σ t середня μ α Pr ( t середня > μ ) = αтмаю на увазі= середнє значення ( X1, X2, … , Xн) - кмаю на увазіα , n , σσкмаю на увазіα , n , σтмаю на увазімкαПр ( тмаю на увазі> μ ) = α
Як відомо, де ; - сукупна функція ймовірності стандартного нормального розподілу. Це формула, наведена у питанні. Математична стенограма є Φ(zα)=1-αΦкмаю на увазіα , n , σ= zα/ н--√Φ ( zα) = 1 - αΦ
- кмаю на увазіα , n , σ= Φ- 1( 1 - α ) / n--√.
Формули для процедур min та max менш відомі, але їх легко визначити:
кхвα , n , σ= Φ- 1( 1 - α1 / н) .
кмаксα , n , σ= Φ- 1( ( 1 - α )1 / н) .
За допомогою моделювання ми можемо побачити, що всі три формули працюють. Наступний R
код проводить експеримент n.trials
окремо та повідомляє про всі три LCL для кожного випробування:
simulate <- function(n.trials=100, alpha=.05, n=5) {
z.min <- qnorm(1-alpha^(1/n))
z.mean <- qnorm(1-alpha) / sqrt(n)
z.max <- qnorm((1-alpha)^(1/n))
f <- function() {
x <- rnorm(n);
c(max=max(x) - z.max, min=min(x) - z.min, mean=mean(x) - z.mean)
}
replicate(n.trials, f())
}
(Код не заважає працювати із загальними нормальними розподілами: оскільки ми вільні у виборі одиниць вимірювання та нуля шкали вимірювання, достатньо вивчити випадок , Ось чому жодна з формул для різних насправді не залежить від .)σ = 1 k ∗ α , n , σ σμ = 0σ= 1к∗α , n , σσ
10 000 випробувань забезпечать достатню точність. Давайте запустимо моделювання та обчислимо частоту, з якою кожна процедура не дає межі довіри, меншої за справжнє середнє:
set.seed(17)
sim <- simulate(10000, alpha=.05, n=5)
apply(sim > 0, 1, mean)
Вихід є
max min mean
0.0515 0.0527 0.0520
Ці частоти досить близькі до встановленого значення що ми можемо задовольнити, що всі три процедури працюють так, як рекламуються: кожна з них виробляє 95% нижчу межу довіри для середнього значення.α = .05
(Якщо ви стурбовані тим, що ці частоти незначно відрізняються від , ви можете провести більше випробувань. З мільйоном випробувань вони ще ближче до : .).05 ( 0.050547 , 0.049877 , 0.050274 ).05.05( 0,050547 , 0,049877 , 0,050274 )
Однак одне, що ми хотіли б про будь-яку процедуру LCL, це те, що вона не тільки повинна корегувати передбачувану частку часу, але має бути, як правило, близькою до правильної. Наприклад, уявіть собі (гіпотетичного) статистику, який в силу глибокої релігійної чутливості може проконсультуватися з дельфійським оракулом (Аполлона) замість того, щоб збирати дані і робити обчислення LCL. Коли вона попросить у Бога 95% LCL, бог просто божествуватиме справжню середину і скаже їй це - адже він ідеальний. Але, оскільки бог не бажає повною мірою ділитися своїми здібностями з людством (яке повинно залишатися помилковим), 5% часу він дасть ЛКП, що становить 100 σХ1, X2, … , Xн100 σзанадто висока. Ця дельфійська процедура також є 95% LCL - але це було б страшно використовувати на практиці через ризик того, що вона призведе до справді жахливої межі.
Ми можемо оцінити, наскільки точними є три наші процедури LCL. Хороший спосіб полягає у перегляді їх розподілу вибірки: так само, як і гістограми багатьох модельованих значень. Ось вони. Перш за все, код для їх створення:
dx <- -min(sim)/12
breaks <- seq(from=min(sim), to=max(sim)+dx, by=dx)
par(mfcol=c(1,3))
tmp <- sapply(c("min", "max", "mean"), function(s) {
hist(sim[s,], breaks=breaks, col="#70C0E0",
main=paste("Histogram of", s, "procedure"),
yaxt="n", ylab="", xlab="LCL");
hist(sim[s, sim[s,] > 0], breaks=breaks, col="Red", add=TRUE)
})
Вони зображені на однакових осях x (але дещо різними вертикальними осями). Що нас цікавить
Червоні ділянки праворуч від чиї області представляють частоту, з якою процедури не занижують середнє значення - приблизно дорівнюють бажаній кількості, . (Ми це вже підтвердили чисельно.)α = .050α = .05
У спреди результатів моделювання. Очевидно, що найправіша гістограма є вужчою, ніж дві інші: вона описує процедуру, яка дійсно занижує середнє значення (рівне ) повністю в % часу, але навіть коли це відбувається, це заниження майже завжди знаходиться в межах від справжнє значення. Інші дві гістограми мають схильність недооцінювати справжню середню на трохи більше, приблизно до занадто низька. Крім того, коли вони завищують справжню середню, вони, як правило, переоцінюють її більш ніж правою процедурою. Ці якості роблять їх поступаючись крайній правій гістограмі.0952 σ3 σ
Крайня права кістограма описує варіант 2, звичайну процедуру LCL.
Одним із показників цих спредів є стандартне відхилення результатів моделювання:
> apply(sim, 1, sd)
max min mean
0.673834 0.677219 0.453829
Ці цифри говорять нам про те, що процедури max і min мають однакові розвороти (приблизно ), а звичайна, середня , процедура має лише приблизно дві третини їх поширення (приблизно ). Це підтверджує свідчення наших очей.0,680,45
Квадрати стандартних відхилень - це відхилення, рівні , та відповідно. Відхилення можуть бути пов'язані з кількістю даних : якщо один аналітик рекомендує процедуру макс (або хв ), то для досягнення вузького поширення, що демонструється звичайною процедурою, їх клієнт повинен був отримати рази більше даних --надто вдвічі більше. Іншими словами, використовуючи Варіант 1, ви б платили за свою інформацію більше вдвічі більше, ніж використовуючи Варіант 2.0,450,450,200,45 / 0,21