Чи підходить завантажувальна програма для цих постійних даних?

Я повний новачок :)

Я роблю дослідження з розміром вибірки 10 000 від населення близько 745 000. Кожен зразок являє "відсоткову схожість". Переважна більшість зразків становить приблизно 97% -98%, але кілька - від 60% до 90%, тобто розподіл сильно негативно перекошений. Приблизно 0,6% результатів становлять 0%, але вони будуть розглянуті окремо від вибірки.

Середнє значення всіх 10000 проб становить 97,7%, а лише в Excel StdDev - 3,20. Я розумію, що StdDev насправді не застосовується, оскільки результати зазвичай не розподіляються (і тому, що +3.20 поставив би вас вище 100%!).

Мої запитання:

Чи підходить завантажувальна програма (нова для мене концепція)?
Чи правильно я завантажуюся :)
Що таке достатній розмір вибірки?

Що я роблю, це перекомпонування (із заміною) моїх 10 000 результатів та обчислення нової середньої величини. Я роблю це кілька тисяч разів і зберігаю кожне значення в масиві. Потім я обчислюю "середнє значення", і це мій статистичний результат. Для опрацювання 99% ІС я вибираю значення 0,5% -ного та 99,5% -го значення, і це дає дуже жорсткий діапазон: 97,4% - 98,0%. Це дійсний результат чи я роблю щось не так?

Що стосується розміру вибірки, то я беру на вибірку лише близько 1,3% населення - я поняття не маю, чи цього "достатньо". Як я можу знати, чи мій зразок є репрезентативним для населення? В ідеалі я хотів би бути 99% впевненим у середньому, що становить +/- 0,50% процентних пунктів (тобто 97,2% - 98,2%).

Заздалегідь дякую за будь-які поради!

bootstrap sample-size resampling

— Glenn W
джерело

Стандартне відхилення тут настільки ж застосовне, як і деінде: воно дає корисну інформацію про розповсюдження даних. Зокрема, sd, розділене на квадратний корінь розміру вибірки, є однією стандартною помилкою: вона оцінює дисперсію розподілу вибірки середнього значення. Порахуємо:

3.2 % / \sqrt{10000} = 0.032 % = 0.00032.

$3.2\% / \sqrt{10000} = 0.032\% = 0.00032.$

Це крихітна --далі менша точність яку ви прагнете. $\pm 0.50\%$

Хоча дані звичайно не розподіляються, середнє значення вибірки надзвичайно близьке до нормально розподіленого, оскільки розмір вибірки настільки великий. Ось, наприклад, гістограма зразка з тими ж характеристиками, що і ваша, і, праворуч, гістограма для тисячі додаткових проб з тієї ж сукупності.

Фігура 1

Це дуже схоже на нормальне, чи не так?

Таким чином, хоча здається, що ви завантажуєте правильно, завантажувальна передача не потрібна: симетричний довірчий інтервал для середнього виходить, як звичайно, шляхом множення стандартної помилки на відповідний перцентил стандартного нормального розподілу (на дотепність, ) і переміщення цієї відстані в обидві сторони від середнього. У вашому випадку , тому довірчий інтервал $100 - \alpha\%$ $Z_{1-\alpha/200}$ $Z_{1-\alpha/200} = 2.5758$ $99\%$

(0.977 - 2.5758 (0.032) / \sqrt{10000}, 0.977 + 2.5758 (0.032) / \sqrt{10000}) = (97.62 %, 97.78 %) .

$\left(0.977 - 2.5758(0.032) / \sqrt{10000},\ 0.977 + 2.5758(0.032) / \sqrt{10000}\right) \\ = \left(97.62\%, 97.78\%\right).$

Достатній розмір вибірки можна знайти, перевернувши цю залежність для вирішення для розміру вибірки. Тут він говорить нам, що потрібен розмір зразка навколо

(3.2 % / (0.5 % / Z_{1 - α / 200}))^{2} \approx 272.

$(3.2\% / (0.5\% / Z_{1-\alpha/200}))^2 \approx 272.$

Це досить мало, що ми, можливо, захочемо ще раз перевірити висновок про те, що розподіл вибірки середнього значення є нормальним. Я намалював вибірку з моєї популяції та завантажив її середню (для ітерацій): $272$ $9999$

Малюнок 2

Звичайно, це виглядає нормально. Насправді довірчий інтервал завантаження майже ідентичний нормально-теоретичному КІ . $(97.16\%, 98.21\%)$ $(97.19\%, 98.24\%)$

Як показують ці приклади, фактичний розмір вибірки визначає точність оцінок , а не частки чисельності населення. (Надзвичайний, але інтуїтивно зрозумілий приклад - це те, що одна крапля морської води може дати точну оцінку концентрації солі в океані, хоча ця крапля є такою мізерною часткою всієї морської води.) Для ваших заявлених цілей отримання зразка від (який вимагає більш ніж разів більше , ніж робота в якості зразка ) є зайвим. $10000$ $36$ $272$

Rкод для виконання цих аналізів та побудови графіки наступним чином. Він відбирає з популяції, що має бета-розподіл із середнім значенням та SD . $0.977$ $0.032$

set.seed(17)
#
# Study a sample of 10,000.
#
Sample <- rbeta(10^4, 20.4626, 0.4817)
hist(Sample)
hist(replicate(10^3, mean(rbeta(10^4, 20.4626, 0.4817))),xlab="%",main="1000 Sample Means")
#
# Analyze a sample designed to achieve a CI of width 1%.
#
(n.sample <- ceiling((0.032 / (0.005 / qnorm(1-0.005)))^2))
Sample <- rbeta(n.sample, 20.4626, 0.4817)
cat(round(mean(Sample), 3), round(sd(Sample), 3)) # Sample statistics
se.mean <- sd(Sample) / sqrt(length(Sample))      # Standard error of the mean
cat("CL: ", round(mean(Sample) + qnorm(0.005)*c(1,-1)*se.mean, 5)) # Normal CI
#
# Compare the bootstrapped CI of this sample.
#
Bootstrapped.means <- replicate(9999, mean(sample(Sample, length(Sample), replace=TRUE)))
hist(Bootstrapped.means)
cat("Bootstrap CL:", round(quantile(Bootstrapped.means, c(0.005, 1-0.005)), 5))

— дзижчати
джерело

Я знаю, що цей пост досить старий, але він надзвичайно корисний. Дякую, що поділилися своїми знаннями.

— RDizzl3