У статті я знайшов формулу для стандартного відхилення розміру вибірки
де - середній діапазон підпроб (розмір ) від основного зразка. Як число ? Це правильне число?
У статті я знайшов формулу для стандартного відхилення розміру вибірки
де - середній діапазон підпроб (розмір ) від основного зразка. Як число ? Це правильне число?
Відповіді:
У вибірці з n незалежних значень з розподілу F з pdf f pdf спільного розподілу крайніх мін min ( x ) = x [ 1 ] і max ( x ) = x [ n ] пропорційний
(Константа пропорційності - це зворотний коефіцієнт багаточлену . Інтуїтивно цей спільний PDF виражає шанс знайти найменше значення в діапазоні[x[1],x[1]+dx[1]), найбільшому значенні в діапазоні[x[n],x[n]+dx[n]), а середнє значення між ними в межах [ x [ 1 ] + d x [ 1 ] , x [ n ] ) . Коли F безперервний, ми можемо замінити це середнє діапазон на ( x [ 1 ] , x [ n ] ] , тим самим нехтуючи лише "нескінченно малою" величиною ймовірності. Асоційовані ймовірності до першого порядку в диференціалах - f ( x [ 1 ]f ( x [ n ] ) d x [ n ] , і F ( x [ n ] ) - F ( x [ 1 ] ) , відповідно, очевидно, звідки походить формула.)
Беручи очікування діапазону дає 2.53441 сг для будь-якого нормального розподілу зі стандартним відхиленням сг і п = 6 . Очікуваний діапазон, кратний σ, залежить від розміру вибірки n :
Ці значення обчислювались шляхом чисельної інтеграції над{(x,y)∈R2| x≤y}, причомуFвстановлено на стандартний нормальний CDF, і ділиться на стандартне відхиленняF(що становить лише1).
Аналогічна мультиплікативна залежність між очікуваним діапазоном і стандартним відхиленням буде мати місце для будь-якого сімейства розподілів масштабу локації, оскільки це властивість форми лише розподілу. Наприклад, ось порівняльна ділянка для рівномірного розподілу:
та експоненціальні розподіли:
Значення на попередніх двох графіках були отримані точним - не числовим - інтегруванням, що можливо завдяки відносно простим алгебраїчним формам і F у кожному випадку. Для рівномірних розподілів вони дорівнюють n - 1 а для експоненціальних розподілів вониγ+ψ(n)=γ+ Γ ′ ( n ) деγ- константа Ейлера, аψ- функція "полігама", логарифмічна похідна функції Гамма Ейлера.
Хоча вони і відрізняються (оскільки ці розподіли відображають широкий діапазон фігур), три приблизно узгоджуються навколо , показуючи, що множник 2,5 не сильно залежить від форми і тому може служити всебічною, надійною оцінкою стандартного відхилення коли відомі діапазони невеликих підпроб. (Дійсно, дуже важкий розподіл студента t з трьома ступенями свободи все ще має множник приблизно 2,3 для n = 6 , зовсім не 2,5 ).
Це наближення дуже близьке до справжнього стандартного відхилення вибірки. Я написав швидкий сценарій R, щоб проілюструвати це:
x = sample(1:10000,6000,replace=TRUE)
B = 100000
R = rep(NA,B)
for(i in 1:B){
samp = sample(x,6)
R[i] = max(samp)-min(samp)
}
mean(R)/2.534
sd(x)
який дає:
> mean(R)/2.534
[1] 2819.238
>
> sd(x)
[1] 2880.924
Зараз я не впевнений (поки), чому це працює, але, принаймні, схоже (за номіналом), що наближення є гідним.
Редагувати: Дивіться винятковий коментар @ Whuber (вище) про те, чому це працює