Стандартне відхилення тут настільки ж застосовне, як і деінде: воно дає корисну інформацію про розповсюдження даних. Зокрема, sd, розділене на квадратний корінь розміру вибірки, є однією стандартною помилкою: вона оцінює дисперсію розподілу вибірки середнього значення. Порахуємо:
3.2%/10000−−−−−√=0.032%=0.00032.
Це крихітна --далі менша точність яку ви прагнете.±0.50%
Хоча дані звичайно не розподіляються, середнє значення вибірки надзвичайно близьке до нормально розподіленого, оскільки розмір вибірки настільки великий. Ось, наприклад, гістограма зразка з тими ж характеристиками, що і ваша, і, праворуч, гістограма для тисячі додаткових проб з тієї ж сукупності.
Це дуже схоже на нормальне, чи не так?
Таким чином, хоча здається, що ви завантажуєте правильно, завантажувальна передача не потрібна: симетричний довірчий інтервал для середнього виходить, як звичайно, шляхом множення стандартної помилки на відповідний перцентил стандартного нормального розподілу (на дотепність, ) і переміщення цієї відстані в обидві сторони від середнього. У вашому випадку , тому довірчий інтервалZ 1 - α / 200 Z 1 - α / 200 = 2,5758 99 %100−α%Z1−α/200Z1−α/200=2.575899%
(0.977−2.5758(0.032)/10000−−−−−√, 0.977+2.5758(0.032)/10000−−−−−√)=(97.62%,97.78%).
Достатній розмір вибірки можна знайти, перевернувши цю залежність для вирішення для розміру вибірки. Тут він говорить нам, що потрібен розмір зразка навколо
(3.2%/(0.5%/Z1−α/200))2≈272.
Це досить мало, що ми, можливо, захочемо ще раз перевірити висновок про те, що розподіл вибірки середнього значення є нормальним. Я намалював вибірку з моєї популяції та завантажив її середню (для ітерацій):99992729999
Звичайно, це виглядає нормально. Насправді довірчий інтервал завантаження майже ідентичний нормально-теоретичному КІ .( 97,19 % , 98,24 % )(97.16%,98.21%)(97.19%,98.24%)
Як показують ці приклади, фактичний розмір вибірки визначає точність оцінок , а не частки чисельності населення. (Надзвичайний, але інтуїтивно зрозумілий приклад - це те, що одна крапля морської води може дати точну оцінку концентрації солі в океані, хоча ця крапля є такою мізерною часткою всієї морської води.) Для ваших заявлених цілей отримання зразка від (який вимагає більш ніж разів більше , ніж робота в якості зразка ) є зайвим.36 2721000036272
R
код для виконання цих аналізів та побудови графіки наступним чином. Він відбирає з популяції, що має бета-розподіл із середнім значенням та SD .0,0320.9770.032
set.seed(17)
#
# Study a sample of 10,000.
#
Sample <- rbeta(10^4, 20.4626, 0.4817)
hist(Sample)
hist(replicate(10^3, mean(rbeta(10^4, 20.4626, 0.4817))),xlab="%",main="1000 Sample Means")
#
# Analyze a sample designed to achieve a CI of width 1%.
#
(n.sample <- ceiling((0.032 / (0.005 / qnorm(1-0.005)))^2))
Sample <- rbeta(n.sample, 20.4626, 0.4817)
cat(round(mean(Sample), 3), round(sd(Sample), 3)) # Sample statistics
se.mean <- sd(Sample) / sqrt(length(Sample)) # Standard error of the mean
cat("CL: ", round(mean(Sample) + qnorm(0.005)*c(1,-1)*se.mean, 5)) # Normal CI
#
# Compare the bootstrapped CI of this sample.
#
Bootstrapped.means <- replicate(9999, mean(sample(Sample, length(Sample), replace=TRUE)))
hist(Bootstrapped.means)
cat("Bootstrap CL:", round(quantile(Bootstrapped.means, c(0.005, 1-0.005)), 5))