Чому ми беремо квадратний дисперсійний корінь для створення стандартного відхилення?


26

Вибачте, якщо на це відповіли в іншому місці, я не зміг його знайти.

Мені цікаво, чому ми беремо квадратний корінь , зокрема, дисперсії для створення стандартного відхилення? Що стосується взяття квадратного кореня, який дає корисне значення?



2
Подумайте про стандартне відхилення як евклідову векторну норму, а потім про дисперсію як квадрат. Це визначення дисперсії та стандартного відхилення виявляється корисними аналітичними властивостями.
theideasmith

Відповіді:


44

У певному сенсі це тривіальне питання, але в іншому воно насправді досить глибоке!

  • Як уже згадувалося, витягуючи квадратний корінь означає має ті ж одиниці .Stdev(X)X

  • Беручи квадратний корінь, ви отримуєте абсолютну однорідність, також абсолютну масштабованість . Для будь-якої скалярної та випадкової змінної ми маємо: Absolute гомогенність є обов'язковою властивістю з норми . Стандартне відхилення можна інтерпретувати як норму (на векторному просторі середніх нульових випадкових величин) аналогічно, що є стандартною евклідовою нормою в тривимірному простір. Стандартне відхилення - це міра відстані між випадковою змінною та її середнім значенням.αX

    Stdev[αX]=|α|Stdev[X]
    x2+y2+z2

Стандартне відхилення та нормаL2

Випадок кінцевого розміру:

У мірному векторному просторі стандартна евклідова норма, відома як норма , визначається як:nL2

x2=ixi2

Більш широко, -norm приймає корінь щоб отримати абсолютний однорідність: .p xp=(i|xi|p)1ppαxp=(i|αxi|p)1p=|α|(i|xi|p)1p=|α|xp

Якщо у вас є ваги то зважена сума також є дійсною нормою. Крім того, це стандартне відхилення, якщо представляють ймовірності таqiixi2qiqiE[x]ixiqi=0

Випадок нескінченного розміру:

У нескінченномірному просторі Гільберта ми аналогічно можемо визначити норму :L2

X2=ωX(ω)2dP(ω)

Якщо - середня нульова випадкова величина, а - міра ймовірності, яке стандартне відхилення? Це те саме: .XPωX(ω)2dP(ω)

Підсумок:

Беручи квадратний корінь означає, що стандартне відхилення задовольняє абсолютну однорідність , необхідну властивість норми .

На просторі випадкових величин, являє собою скалярний твір і норма, викликана цим внутрішнім продуктом . Таким чином, стандартне відхилення є нормою збитої випадкової величини: Це міра відстані від середнього в .X,Y=E[XY]| | Х 2 = X2=E[X2] Stdev[X]=X-E[X]2E[X]X

Stdev[X]=XE[X]2
E[X]X

(Технічний момент: у той час як ім'я є нормою, стандартне відхилення ім'я не є нормою більш випадкових величин в цілому , так як потреба в нормованому векторному просторі є тоді і тільки тоді , коли . стандартне відхилення 0 Байдуже » t означає, що випадкова величина є нульовим елементом.)E[X2]E[(XE[X])2]x=0x=0


1
Ця відповідь дійсно лежить в основі питання, що робить його більш інформативним, ніж прийнятий на даний момент.
00прометей

26

Варіантність визначається як , тому це очікування різниці у квадраті між X та очікуваним значенням.XV(X)=E(XE(X))2

Якщо час у секундах, - у секундах, але знаходиться у і знову через секунди.XXE(X)V(X)seconds2V(X)


А я бачу, це просто скасування зміни масштабу, яка стала результатом вирівнювання різниць, при обчисленні дисперсії?
Дейв

11
Правильно - але зміна розмірів , а не масштабу.
Жан-Франсуа Корбетт

Але це не так, як там є один термін: їх багато, і кожен, коли при владі 2, приносить більше або менше, ніж інші умови. Але коли ми беремо квадратний корінь, ми нехтуємо цією різницею, чи не так? Ми не отримаємо початковий чисельник, суму всіх різниць таким чином. Чи не було б краще взяти квадратний корінь кожного окремого терміна?
розбір

Схоже , що ви думаєте про оцінку V , на основі вибірки. У такому випадку, якщо б ви зробили це, різниці будуть нульовими: n i = 1 ( x i - ˉ x ) = n i = 1 x i - n i = 1 x i = 0 . V^i=1n(xix¯)=i=1nxii=1nxi=0
HStamper

@EricMittman Крім того, що , Чи не, в цьому випадку ви отримаєтесередню абсолютну помилку. a2=|a|a
Дугал

6

Проста відповідь полягає в тому, що одиниці знаходяться в тій же шкалі, що і середня величина. Приклад: Я оцінюю середнє значення для середнього школяра 160см при стандартному відхиленні (СД) 20см. Це інтуїтивно легше отримати почуття зміни з СД , ніж дисперсія 400см ^ 2.


0

Простіше кажучи, стандартне відхилення покликане дати нам позитивне число, яке щось говорить про поширення наших даних про його значення.

Якби ми просто підсумовували відстані всіх точок від середньої величини, то точки в позитивному та негативному напрямках поєднувались би таким чином, який би тяжів назад до середнього, і ми втрачали б інформацію про спред. Ось чому ми спочатку вимірюємо дисперсію, щоб всі відстані зберігалися як позитивні величини за допомогою квадрату, і вони не відміняли один одного. Зрештою, ми хочемо, щоб позитивне значення було представлене з одиниць, з яких ми почали - це вже було прокоментовано вище - тому ми беремо позитивний квадратний корінь.


-3

Це історична дурість, яку ми продовжуємо через інтелектуальну лінь. Вони вирішили розподілити відмінності від середнього, щоб позбутися від знаку мінус. Потім вони взяли квадратний корінь, щоб довести його до масштабу, подібного до середнього.

Хтось повинен генерувати нову статистику, обчислювальну дисперсію та SD, використовуючи модуль або абсолютні значення відхилення від середнього. Це дозволило б позбутися від цілого квадрату, а потім взяти на себе корінний бізнес.


1
Ми маємо це вже у вигляді середнього (або медіанного) абсолютного відхилення, норм L1 тощо. Тим НЕ менше, головна перевага традиційного підходу полягає в тому, що, в відміну від абсолютних значень, це диференціюється, що дозволяє аналітичний згортати і розгортати речі.
Метт Крауз

1
Ви не надаєте суттєвого обґрунтування своєї позиції, будь ласка, надайте чітко викладений математичний аргумент. Сума абсолютних величин масштабується дуже по-різному від квадратного кореня від суми квадратів. Останнє підкреслює внесок крайніх значень, що є корисною властивістю. Також SSQ є найважливішим для аналітичних методів найменших квадратів. Будь ласка, знайдіть час, щоб розглянути проблеми SD та порівняння альтернатив, щоб читачі могли зрозуміти вашу точку зору. .
ReneBt

(-1) Прочитати такі фрази, як "історична дурість" та "інтелектуальна лінь", дуже просто, як самореференційні.
whuber
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.