Різниця між стандартною помилкою та стандартним відхиленням


96

Я намагаюся зрозуміти різницю між стандартною помилкою та стандартним відхиленням. Чим вони відрізняються і чому потрібно вимірювати стандартну помилку?


7
Швидкий коментар, а не відповідь, оскільки вже є два корисні: стандартне відхилення є властивістю (розподілу) випадкової змінної. Стандартна помилка замість цього пов'язана з вимірюванням на певній вибірці. Вони можуть заплутатися, коли розмиває відмінність між Всесвітом та вашим зразком.
Франческо

Можливо, що цікавить: stats.stackexchange.com/questions/15505/…
Макрос

Відповіді:


31

Щоб завершити відповідь на питання, Ocram добре вирішив стандартну помилку, але не порівняв її зі стандартним відхиленням і не згадав про залежність від розміру вибірки. В якості окремого випадку для оцінювача розглянемо середнє значення вибірки. Стандартна помилка для середнього значення - деσ/nσ- це стандартне відхилення населення. Тож у цьому прикладі ми чітко бачимо, як стандартна помилка зменшується зі збільшенням розміру вибірки. Стандартне відхилення найчастіше використовується для позначення окремих спостережень. Таким чином, стандартне відхилення описує мінливість окремих спостережень, тоді як стандартна помилка показує мінливість оцінювача. Хороші оцінки є послідовними, що означає, що вони сходяться до справжнього значення параметра. Коли їх стандартна похибка зменшується до 0, коли розмір вибірки збільшується, оцінювачі послідовні, що в більшості випадків трапляється, тому що стандартна помилка йде до 0, як явно ми бачимо із середньою вибіркою.


3
Re: "... послідовне, що означає, що їх стандартна помилка зменшується до 0" - це неправда. Ви пам’ятаєте цю дискусію: stats.stackexchange.com/questions/31036/… ?
Макрос

1
Так, звичайно, я пам’ятаю обговорення незвичайних винятків, і я думав про це, коли відповідав на питання. Але питання стосувалося стандартних помилок і, спрощено, хороші оцінки параметрів є узгодженими і мають стандартні помилки, як правило, до 0, як у випадку середньої вибірки.
Майкл Черник

4
Я погоджуюся з вашим коментарем - стандартна помилка вибірки середнього значення дорівнює 0, а середня вибірка є послідовною. Але його стандартна помилка, що переходить до нуля, не є наслідком (або еквівалентним) факту, що він є послідовним, про що говорить ваша відповідь.
Макрос

3
@Macro так, відповідь можна було б покращити, що я вирішив зробити. Я думаю, що важливо не бути занадто технічним з ОП, оскільки кваліфікувати все може бути складним і заплутаним. Але технічну точність не варто жертвувати заради простоти. Тому я вважаю, що спосіб, з яким я звертався до цього у своїй редакції, найкращий спосіб зробити це.
Майкл Черник

9
Я погоджуюся, що важливо не отримувати технічні засоби, якщо це абсолютно не потрібно. Мій єдиний коментар - це те, що після того, як ви вже вирішили ввести поняття узгодженості (технічна концепція), в помилковій характеристиці це не буде корисним в ім'я, щоб зробити відповідь простішою для розуміння. Я думаю, що ваша редакція все ж стосується моїх коментарів.
Макрос

51

Ось більш практична (а не математична) відповідь:

  • SD (стандартне відхилення) кількісно визначає розсіювання - наскільки значення змінюються одна від одної.
  • SEM (стандартна похибка середнього значення) кількісно визначає, наскільки точно ви знаєте справжнє середнє значення сукупності. Він враховує як значення SD, так і розмір вибірки.
  • І SD, і SEM знаходяться в одних і тих же одиницях - одиницях даних.
  • SEM, за визначенням, завжди менше, ніж SD.
  • SEM стає меншим, коли ваші зразки стають більшими. Це має сенс, тому що середнє значення для великої вибірки, швидше за все, буде ближче до справжнього середнього показника популяції, ніж середнє для малого вибірки. Завдяки величезній вибірці ви знатимете значення середнього значення з великою точністю, навіть якщо дані дуже розпорошені.
  • SD не змінюється передбачувано, оскільки ви отримуєте більше даних. Оцінка SD, яку ви обчислюєте з вибірки, є найкращою можливою оцінкою SD загальної сукупності. Коли ви збираєте більше даних, ви будете оцінювати рівень населення з більшою точністю. Але ви не можете передбачити, чи буде SD з більшого зразка більшим чи меншим, ніж SD з малого зразка. (Це спрощення, не зовсім вірно. Дивіться коментарі нижче.)

Зауважте, що стандартні помилки можна обчислити майже для будь-якого параметра, який ви обчислюєте з даних, а не лише середнього значення. Фраза «стандартна помилка» трохи неоднозначна. Пункти вище стосуються лише стандартної середньої помилки.

посібника зі статистики GraphPad, який я написав.)


11
+1 Ясна корисна порада. Але впорядковано декілька роз'яснень, з яких найважливіше стосується останньої кулі: Я хотів би заперечити вас на грі передбачення SD. Ми спостерігаємо SD з iid зразків, скажімо, нормального розподілу. Я спрогнозую, чи буде SD більше чи нижче після наступних проб, скажімо. Ви платите мені долар, якщо я правильно, інакше я плачу вам долар. (При правильній грі - яку я пропоную вам розібратися! - очікування цієї гри для мене позитивне, отримуючи так само близько долара, коли )n100n.18n=2
whuber

4
@whuber: Звичайно, ти маєш рацію. Саме дисперсія (SD у квадраті) не зміниться передбачувано, оскільки ви додасте більше даних. Збільшиться обсяг зразка, коли розмір вибірки збільшується, особливо коли ви починаєте з крихітних проб Ця зміна є невеликою порівняно зі зміною SEM у міру зміни розміру вибірки.
Харві Мотульський

@HarveyMotulsky: Чому sd збільшується?
Андрій

У великих зразків дисперсія вибірки буде досить близькою до дисперсії сукупності, тому вибіркова SD буде близькою до популяційної SD. Для менших зразків дисперсія вибірки буде дорівнювати дисперсії популяції в середньому, але розбіжності будуть більшими. Якщо симетричні як дисперсії, вони будуть несиметричними як SD. Приклад: Дисперсія популяції - 100. Дві вибіркові дисперсії - 80 або 120 (симетричні). Зразок SD повинен бути 10, але буде 8,94 або 10,95. Середні вибіркові СД від симетричного розподілу навколо дисперсії населення, а середнє значення СД буде низьким, з низьким Н.
Харві Мотульський

43

Нехай - ваш параметр, що цікавить, для якого ви хочете зробити висновок. Для цього у вас є зразок спостережень разом з деякою технікою для отримання оцінки , . У цій нотації я чітко зазначив, що залежить від . Дійсно, якби у вас був інший зразок, , ви б закінчилися з іншою оцінкою . Це робить реалізацією випадкової величини, яку я позначаюθx={x1,,xn}θθ^(x)θ^(x)xx~θ^(x~)θ^(x)θ^. Ця випадкова величина називається оцінкою. Стандартна помилка з (= оцінка) є стандартним відхиленням від (= випадкова величина). Він містить інформацію про те, наскільки ви впевнені у своїй оцінці. Якщо вона велика, це означає, що ви могли б отримати зовсім іншу оцінку, якби ви намалювали інший зразок. Стандартна помилка використовується для побудови довірчих інтервалів.θ^(x)θ^


1
Чи стандартна похибка оцінки дорівнює стандартному відхиленню оціночної змінної?
Юрій

6

(зауважте, що я зосереджуюсь на стандартній похибці середнього значення, на яку я вважаю, що і запитуючий був, але ви можете створити стандартну помилку для будь-якої статистичної вибірки)

Стандартна помилка пов'язана зі стандартним відхиленням, але вони не є одне і те ж, і збільшення розміру вибірки не зближує їх. Швидше, це робить їх далі один від одного. Стандартне відхилення вибірки стає ближчим до стандартного відхилення сукупності, оскільки розмір вибірки збільшується, але не є стандартною помилкою.

Іноді термінологія навколо цього трохи товста, щоб пройти.

Коли ви збираєте вибірку і обчислюєте стандартне відхилення цього зразка, оскільки вибірка зростає в розмірах, оцінка стандартного відхилення стає все більш точною. З вашого запитання виходить саме те, про що ви думали. Але також врахуйте, що середнє значення вибірки, як правило, в середньому наближається до популяційного. Це важливо для розуміння стандартної помилки.

Стандартна помилка полягає в тому, що станеться, якщо у вас буде кілька зразків заданого розміру. Якщо взяти зразок 10, ви можете отримати деяку оцінку середнього значення. Потім ви берете ще один зразок з 10 і нову середню оцінку тощо. Стандартне відхилення засобів цих зразків - це стандартна помилка. З огляду на те, що ви поставили своє запитання, ви, ймовірно, тепер можете бачити, що якщо N високий, то стандартна помилка менша, оскільки засоби зразків будуть менш відхилятися від справжнього значення.

Для деяких це звучить чудово, враховуючи, що ви обчислили це з одного зразка. Отже, те, що ви можете зробити, це завантажувати стандартну помилку за допомогою симуляції, щоб продемонструвати взаємозв'язок. У R це виглядатиме так:

# the size of a sample
n <- 10
# set true mean and standard deviation values
m <- 50
s <- 100

# now generate lots and lots of samples with mean m and standard deviation s
# and get the means of those samples. Save them in y.
y <- replicate( 10000, mean( rnorm(n, m, s) ) )
# standard deviation of those means
sd(y)
# calcuation of theoretical standard error
s / sqrt(n)

Ви побачите, що ці дві останні команди генерують однакове число (приблизно). Ви можете змінювати значення n, m та s, і вони завжди вийдуть досить близько один до одного.


Я вважаю це справді корисним, дякую за публікацію. Чи було б справедливо тоді описати стандартну помилку як "стандартне відхилення розподілу вибірки"? Чи є розподіл вибірки y у кодовому блоці вище? Це те, що мене бентежило, зв’язуючи параметри вибірки sd і середнє з параметрами розподілу вибірки.
Дуг Фір

1
Якщо ви зміните формулювання, щоб вказати зразок засобів для цього випадку, так.
Іоанна
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.