Як я можу знайти стандартне відхилення стандартного відхилення вибірки від нормального розподілу?


11

Пробачте, якщо я пропустив щось досить очевидне.

Я фізик, який по суті є (гістограмою) розподілом, орієнтованим на середнє значення, яке наближається до нормального розподілу. Важливе значення для мене - це стандартне відхилення цієї Гауссової випадкової величини. Як би я намагався знайти помилку на стандартному відхиленні вибірки? У мене є відчуття, що це пов’язано з помилкою кожного контейнера в оригінальній гістограмі.


Підказка надається на сайті stats.stackexchange.com/questions/26924 . Загалом, помилка вибірки дисперсії може бути обчислена за першими чотирма моментами розподілу, і тому помилка вибірки SD може бути принаймні оцінена з цих моментів.
whuber

Відповіді:


12

Здається, що ви просите обчислити стандартне відхилення вибіркового стандартного відхилення. Тобто ви запитуєте , деSD(s)=var(s)

s=1n1i=1n(XiX¯),

¯ XX1,...,XnN(μ,σ2) і - середнє значення вибірки.X¯

По-перше, з основних властивостей дисперсії ми знаємо, що

var(s)=E(s2)E(s)2

Оскільки дисперсія вибірки є неупередженою, ми знаємо . В Чому стандартне відхилення вибірки є упередженим оцінювачем ? , обчислюється, з чого ми можемо зробити висновокσ E ( s )E(s2)=σ2σE(s)

E(s)2=2σ2n1(Γ(n/2)Γ(n12))2

тому

SD(s)=E(s2)E(s)2=σ12n1(Γ(n/2)Γ(n12))2

Гарна думка. Я отримав оцінку дисперсії s ^ 2. Прийняття квадратного кореня дає оцінку стандартного відхилення s ^ 2. Але ви відповіли на фактичне запитання, яке повинно було отримати стандартне відхилення s. Я б припустив, що з практичних причин ви також замінили σ на s, щоб отримати оцінку за допомогою формули.
Майкл Р. Черник

Так, саме так, ви можете замінити на s, і це наближення спрацьовує навіть для скромних розмірів вибірки - я зробив кілька тестувань з n = 20 . σsn=20
Макрос

11

Величина має розподіл у квадраті з n - 1 градусами свободи, коли зразки є незалежними та розподілені з однаковим нормальним розподілом. Ця кількість може бути використана для отримання довірчих інтервалів для дисперсія норми та її стандартне відхилення. Якщо у вас є вихідні значення, а не лише центральне значення бункерів, ви можете обчислити s 2 . X=(n1)s2/σ2n1s2

Відомо, що якщо має розподіл c-квадрата з n - 1 ступенем свободи, його дисперсія дорівнює 2 ( n - 1 ) . Знаючи це і той факт, що V a r ( c X ) = c 2 V a r ( X ), отримуємо, що має дисперсію, рівну Хоча невідомо, ви можете наблизити його доXn12(n1)Var(cX)=c2Var(X)2 ( n - 1 ) σ 4s2σ 4 s 4 s 2

2(n1)σ4(n1)2=2σ4n1.
σ4s4і у вас є приблизне уявлення про те, що таке дисперсія .s2

Я збирався розмістити це на початку, але проблема, яку я тут бачу, полягає в тому, що невідома. З огляду на цей факт, я не знаю, чи справедливо приблизний s 4σ 4, якщо ми навіть не знаємо розміру вибірки. Я пригадую, що можна показати, що в четвертий момент можуть виникнути серйозні проблеми з сторонніми людьми. σ2s4σ4
Нестор

- послідовний оцінювач σ 4 (за умови, що σ 4 існує), правильно @Nesp? Я думаю, що це, як правило, мається на увазі, коли люди сказали "приблизну" чи "грубу думку". s4σ4σ4
Макрос

2
Можливо, це недолік сну, але чи не так це кругові міркування?
Нестор

Ми з самого початку припускали, що дані надходять із звичайного розповсюдження, тому немає жодних проблем. Я мав на увазі грубо в тому, як пропонує Макрос. Я погоджуюся, що розмір вибірки впливає на те, наскільки s ^ 4 близький до σ ^ 4. Але турбота про людей, що вижили, - це офсайд Nesp. Якщо ви за це послухали мене, я вважаю це дуже несправедливим. Я представив стандартний спосіб оцінки стандартного відхилення для s ^ 2, коли дані НОРМАЛЬНО розподілені.
Майкл Р. Черник

@Nesp, Майкл дав послідовну оцінку дисперсії стандартного відхилення вибірки від нормально розподіленого зразка - для великих зразків це буде добре - імітувати його та з'ясувати. Я не впевнений, чому ви вважаєте, що це кругові міркування.
Макрос

7

Існує кілька способів кількісної оцінки похибки стандартного відхилення у звичайному випадку. Я збираюся представити профільну ймовірність яку можна використовувати для наближення довірчих інтервалів.σ

x=(x1,...,xn)(μ,σ)

L(μ,σ)1σnexp(12σ2j=1n(xjμ)2)

(μ^,σ^)=(x¯,s)s=1nj=1n(xjx¯)2σ

Rp(σ)=supμL(μ,σ)L(μ^,σ^)=(σ^σ)nexp[n2(1(σ^σ)2)]

Зауважте, що . Інтервал рівня має приблизну впевненість . Далі я додаю код який можна використовувати для обчислення цих інтервалів. Ви можете змінити його відповідно у вашому контексті (або якщо ви розміщуєте дані, я можу включати ці зміни).0,147 0,95 RRp:R+(0,1]0.1470.95R

data = rnorm(30)
n = length(data)
sg = sqrt(mean((data-mean(data))^2))
# Profile likelihood
rp = function(sigma) return( (sg/sigma)^n*exp(0.5*n*(1-(sg/sigma)^2))  )
vec = rvec = seq(0.5,1.5,0.01)
for(i in 1:length(rvec)) rvec[i] = rp(vec[i])
plot(vec,rvec,type="l")
rpc = function(sigma) return(rp(sigma)-0.147)
# Approximate 95% confidence interval
c(uniroot(rpc,c(0.7,0.8))$root,uniroot(rpc,c(1.1,1.3))$root)

Перевагою цього інтервалу є те, що вони є інваріантними під час перетворень. У цьому випадку, якщо обчислити інтервал для , , то відповідний інтервал для просто .I = ( L , U ) σ 2 I = ( L 2 , U 2 )σI=(L,U)σ2I=(L2,U2)


Я думаю, що він справді просто хотів стандартного відхилення s.
Майкл Р. Черник
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.