Зв'язок між діапазоном і стандартним відхиленням


14

У статті я знайшов формулу для стандартного відхилення розміру вибірки N

σ=R¯2.534

де - середній діапазон підпроб (розмір ) від основного зразка. Як число ? Це правильне число?R¯62.534


6
Список літератури, будь ласка. Що ще важливіше: 1. Тут не може бути "правильного числа" незалежно від типу розподілу, з якого ви берете. 2. Ці правила, як правило, викликають інтерес до скорочених методів оцінки ПД за діапазоном. Зараз у нас є комп’ютери .... Ви хочете це зробити і чому? Чому б просто не використати дані?
Нік Кокс

3
@Nick Вибачте: ви мали рацію. Значення навколо працює для стандартного відхилення, коли розмір вибірки становить приблизно від 15 до 50 ; 3 працює для розмірів зразків близько 10 і т. Д. Я видалю попередній коментар, щоб він не бентежив нікого, крім мене! 41550310
whuber

1
@NickCox це давнє російське джерело, і я раніше не бачив формули.
Енді

3
Давати посилання рідко є поганою ідеєю. Нехай читачі самі вирішують, цікаві вони чи доступні. (Тут є багато людей, які можуть читати російську мову, наприклад.)
Нік Кокс

Відповіді:


17

У вибірці з n незалежних значень з розподілу F з pdf f pdf спільного розподілу крайніх мін min ( x ) = x [ 1 ] і max ( x ) = x [ n ] пропорційнийxnFfmin(x)=x[1]max(x)=x[n]

f(х[1])(Ж(х[н])-Ж(х[1]))н-2f(х[н])гх[1]гх[н]=НЖ(х[1],х[н])гх[1]гх[н].

(Константа пропорційності - це зворотний коефіцієнт багаточлену . Інтуїтивно цей спільний PDF виражає шанс знайти найменше значення в діапазоні[x[1],x[1]+dx[1]), найбільшому значенні в діапазоні[x[n],x[n]+dx[n])(n1,n2,1)=n(n1)[x[1],x[1]+dx[1])[x[n],x[n]+dx[n]), а середнє значення між ними в межах [ x [ 1 ] + d x [ 1 ] , x [ n ] ) . Коли F безперервний, ми можемо замінити це середнє діапазон на ( x [ 1 ] , x [ n ] ] , тим самим нехтуючи лише "нескінченно малою" величиною ймовірності. Асоційовані ймовірності до першого порядку в диференціалах - f ( x [ 1 ]n2[x[1]+dx[1],x[n])F(x[1],x[n]]f ( x [ n ] ) d x [ n ] , і F ( x [ n ] ) - F ( x [ 1 ] ) , відповідно, очевидно, звідки походить формула.)f(x[1])dx[1], f(x[n])dx[n],F(x[n])F(x[1]),

Беручи очікування діапазону дає 2.53441 сг для будь-якого нормального розподілу зі стандартним відхиленням сг і п = 6 . Очікуваний діапазон, кратний σ, залежить від розміру вибірки n :x[n]x[1]2.53441 σσn=6σn

Нормальний

Ці значення обчислювались шляхом чисельної інтеграції над{(x,y)R2| xy}, причомуFвстановлено на стандартний нормальний CDF, і ділиться на стандартне відхиленняF(що становить лише1).(n1,n2,1)(yx)HF(x,y)dxdy{(x,y)R2|xy}FF1

Аналогічна мультиплікативна залежність між очікуваним діапазоном і стандартним відхиленням буде мати місце для будь-якого сімейства розподілів масштабу локації, оскільки це властивість форми лише розподілу. Наприклад, ось порівняльна ділянка для рівномірного розподілу:

Уніформа

та експоненціальні розподіли:

Експоненціальна

Значення на попередніх двох графіках були отримані точним - не числовим - інтегруванням, що можливо завдяки відносно простим алгебраїчним формам і F у кожному випадку. Для рівномірних розподілів вони дорівнюють n - 1fF а для експоненціальних розподілів вониγ+ψ(n)=γ+ Γ ( n )n1(n+1)12 деγ- константа Ейлера, аψ- функція "полігама", логарифмічна похідна функції Гамма Ейлера.γ+ψ(n)=γ+Γ(n)Γ(n)γψ

Хоча вони і відрізняються (оскільки ці розподіли відображають широкий діапазон фігур), три приблизно узгоджуються навколо , показуючи, що множник 2,5 не сильно залежить від форми і тому може служити всебічною, надійною оцінкою стандартного відхилення коли відомі діапазони невеликих підпроб. (Дійсно, дуже важкий розподіл студента t з трьома ступенями свободи все ще має множник приблизно 2,3 для n = 6 , зовсім не 2,5 ).n=62.5t2.3n=62.5


6
Чудова експозиція! Можливо, вам буде цікаво знати, що це, як видається, було досліджено ще у 1920-х роках. Див. Типпет 1925 року . У таблицях Типпета (Таблиця X) очікуване значення для діапазону, заданого зразком розміром 6, становить . Він показує виведення повного розподілу діапазону для нормального розподілу. Цим скористалися Давид та ін. (1954) для обчислення точок ймовірності розподілу дальності для тесту на нормальність (див. D'Agostino & Stephens 9.3.3.4.2). 2.53441σ
Аврахам

@Avraham Дякую за світлі коментарі. Що мене вразило, коли я додав графіку, - це те, що дійсно розумна частина всього цього підходу - це використання підпроборів розміром шість, тому що саме там множники мають тенденцію бути приблизно однаковими незалежно від форми розподілу.
whuber

Спасибі! Таблиці Тіппета насправді дають відповідний множник для всіх чисел між 2 і 1000. Він згадує про те, що виникають питання обчислення; Звичайно, це було ще в 1925 році, за 20 років до ENIAC.
Аврахам

@whuber Ви можете показати, як обчислювали число (2.534)?
Енді

Я відредагував відповідь, щоб включити пояснення розрахунків.
whuber

4

Це наближення дуже близьке до справжнього стандартного відхилення вибірки. Я написав швидкий сценарій R, щоб проілюструвати це:

x = sample(1:10000,6000,replace=TRUE)

B = 100000
R = rep(NA,B)
for(i in 1:B){
    samp = sample(x,6)
    R[i] = max(samp)-min(samp)
}

mean(R)/2.534

sd(x)

який дає:

> mean(R)/2.534
[1] 2819.238
> 
> sd(x)
[1] 2880.924

Зараз я не впевнений (поки), чому це працює, але, принаймні, схоже (за номіналом), що наближення є гідним.

Редагувати: Дивіться винятковий коментар @ Whuber (вище) про те, чому це працює


1
6103/72.474mean(R)/2.4742887.6sd(x)

Дуже правильно! > mean(R)/2.474 [1] 2887.611
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.