Чому стандартне відхилення визначається як sqrt дисперсії, а не як sqrt суми квадратів над N?


16

Сьогодні я викладав вступний клас статистики, і студент підійшов до мене із запитанням, яке я перефразую тут так: "Чому стандартне відхилення визначається як sqrt дисперсії, а не як sqrt суми квадратів над N?"

Визначимо дисперсію популяції: σ2=1N(xiμ)2

І стандартне відхилення: σ=σ2=1N(xiμ)2 .

Інтерпретація ми можемо дати σ , що вона дає середнє відхилення одиниць в популяції від середньої популяції X .

Однак у визначенні sd ділимо sqrt суми квадратів на N . Студент ставить питання, чому ми не ділимо sqrt суми квадратів наNа не. Таким чином, ми приходимо до конкуруючої формули:

σnew=1N(xiμ)2.
Учень стверджував, що ця формула більше схожа на "середнє" відхилення від середнього, ніж при діленні наN як уσ.

Я вважав, що це питання не дурне. Я хотів би дати відповідь студенту, що йде далі, ніж сказати, що sd визначається як sqrt дисперсії, яка є середньоквадратичним девіатоном. По-іншому, чому студент повинен використовувати правильну формулу і не слідувати її ідеї?

Це питання стосується старішої теми та відповідей, наданих тут . Відповіді йдуть у трьох напрямках:

  1. σ - відхилення середньоквадратичного квадрату (RMS), а не «типове» відхилення від середнього (тобто,σnew ). Таким чином, воно визначається по-різному.
  2. Він має приємні математичні властивості.
  3. Крім того, sqrt повертає "одиниці" до їх початкового масштабу. Однак це було б і у випадку σnew , який натомість ділиться на N

Обидва пункти 1 і 2 є аргументами на користь sd як RMS, але я не бачу аргументу проти використання σnew . Які б хороші аргументи переконали учнів початкового рівня у використанні середньої відстані RMS σ від середньої?


2
Я думаю, що на саме запитання "Чому стандартне відхилення визначено як ..." важко відповісти. Визначення є лише умовними умовами маркування. Вони не повинні відповідати чому .
ttnphns

"Why is the standard deviation defined as sqrt of variance and not as average of [the root of] sum of squares?"Можливо, те, що всередині дужок якось загубилося в питанні?
ttnphns

1
Але sd виконує ряд цілей; повинна бути краща мотивація, ніж те, що вона визначена так. Це було б корисно, особливо при викладанні магістрантів. Я можу уявити мотивацію в сенсі нерівності Чебишева (хв. Пропорція випадків у царині +/- постійний коефіцієнт sd).
tomka

2
Не можу відповісти, тому що ваш Q утримується, але спробуйте: Уявіть, що ви спостерігаєте значення 1 і 3 приблизно в рівних пропорціях (киньте монету, H=3 , T=1 ). "Типова відстань" спостережень від середньої має бути приблизно на кшталт 1. З вашим SSE/nФормула S S E /n, розглянемо, що відбувається з цією мірою типової відстані дляnдуже, дуже великої. У кожному випадку|xix¯|буде близько 1, тому їх сума квадратів буде біляn. Чисельник буде близьким доn тому ваша формула стає меншою та меншою, оскількиnзбільшується, хоча типова відстань від середньої не змінювалася.
Glen_b -Встановити Моніку

1
@whuber Я зробив ще одне оновлення, і сподіваюся, що пункт, який я вказую, зараз зрозуміліший. Примітка. Я прошу тут поради щодо викладання, окрім питання про фонди статистики. Я не пропоную альтернативної формули, але наводив приклад із класної ситуації хорошого запитання студента, на який у мене не було негайної відповіді. Якщо ви погоджуєтесь, я прошу звільнити це питання від затримки зараз.
tomka

Відповіді:


12

Є щонайменше три основні проблеми, які можна легко пояснити новачкам:

  1. "Новий" SD навіть не визначений для нескінченного населення. (Можна було б оголосити це завжди рівним нулю в таких випадках, але це не зробить його більше корисним.)

  2. Нова SD не поводиться так, як має робити середній показник при випадковому вибірці.

  3. Хоча новий SD може використовуватися з усією математичною суворістю для оцінки відхилень від середнього (у вибірках та кінцевих сукупностях), його інтерпретація є надмірно складним.

1. Застосування нового SD обмежене

Точку (1) можна повернути додому, навіть тим, хто не розбирається в інтеграції, вказавши, що оскільки дисперсія явно є середнім арифметичним (у квадратичних відхиленнях), вона має корисне розширення до моделей "нескінченних" популяцій, для яких інтуїція існування середнього арифметичного все ще має місце. Тому його квадратний корінь - звичайний SD - також чудово визначений у таких випадках і настільки ж корисний у ролі дисперсії (нелінійного реекспресії). Однак новий SD розділяє це середнє значення на довільно великі , що робить проблематичним його узагальнення за межами кінцевих сукупностей та кінцевих зразків: що повинно1/N приймається рівним в таких випадках?1/N

2. Нова SD не є середньою

Будь-яка статистика, яка заслуговує назви "середній", повинна мати властивість, що вона переходить до значення сукупності у міру збільшення розміру випадкової вибірки від сукупності. Будь-який фіксований кратний SD має цю властивість, оскільки множник застосовуватиметься як для обчислення вибіркової SD, так і для сукупності SD. (Хоча це прямо і не суперечить аргументу, запропонованому Алекосом Пападопулосом, це спостереження дозволяє припустити, що аргумент є лише дотичним до реальних питань.) Однак "новий" СД, рівний разів перевищує звичайний, очевидно, збільшиться до0за будь-яких обставин, оскільки розмір вибіркиNзростає. Отже,хоча для будь-якого фіксованого розміру вибіркиNновий SD (відповідний інтерпретація) є цілком адекватною мірою коливання середнього значення,він не може бути обгрунтованим вважатисяуніверсальнимзаходом, застосовним з однаковою інтерпретацією для всіх розмірів вибірки, і він не може правильно називати "середнім" у будь-якому корисному сенсі.1/N0NN

3. Новий SD складний для тлумачення та використання

Розглянемо взяття зразків (скажімо) розміром . Нова SD в цих випадках становить 1 / N=4разів більше звичайного SD. Тому він користується порівнянними інтерпретаціями, такими як аналог правила 68-95-99 (близько 68% даних повинні лежати в межахдвохнових середніх SD, 95% з них у межахчотирьохнових SD середнього значеннятощо); і версії класичних нерівностей, такі як Чебичова, будуть дотримані (не більше1/k2даних може лежати більше ніж2kнових SD від їх середнього значення); і теорема про центральний ліміт може бути аналогічно перероблена з точки зору нової SD (один ділиться на1/N=1/21/k22k разів більше нової SD для стандартизації змінної). Таким чином, у цьому конкретному і чітко обмеженому сенсінемає нічого поганого з пропозицією учня. Складність полягає в тому, що всі ці твердження містять - досить явно - факториN. Хоча з цим не існує притаманної математичної проблеми, це, безумовно, ускладнює висловлювання та тлумачення найбільш фундаментальних законів статистики.N=2


Слід зазначити, що Гаус та інші спочатку параметризували розподіл Гаусса на , ефективно використовуючи2σ рази більше SD для кількісного визначення поширення нормальної випадкової величини. Це історичне використання демонструє пристосованість та ефективність використання іншихфіксованихкратних значень SD замість нього.2


Дякую - одне запитання назад (стосовно вашого пункту 2): чи не збігається з0,оскількиNзростає великим, тоді як11N0N очевидно так? 1N
tomka

2
Ми порівнюємо SD вибірки до разів перевищує SD вибірки ("нова SD"). КолиNзростає великим, SD вибірки наближається до (як правило) ненульовоїпостійної, щодорівнює SD популяції. Тому1/1/NN разів зразок SD сходиться до нуля. 1/N
whuber

Це стандартний матеріал - проконсультуйтеся з будь-яким суворим підручником з математичної статистики (який, справедливо кажучи, не був би доступний більшості початківців). Однак результати, важливі для моєї відповіді, випливають із слабшого та інтуїтивно очевидного твердження. Зафіксуйте число і нехай σ - SD населення. Розглянемо шанс, що зразок SD буде лежати між σ / A і A σ . Досить, що цей шанс виходить на нуль, оскільки розмір вибірки N збільшується. Це одне лише показує, що 1 /A>1σσ/AAσN разів вибірка SD сходиться до0майже напевно, демонструючи у відповіді точку (2). 1/N0
whuber

+1, плюс це не інваріантність масштабу тощо. (Умова, необхідна для моменту такої форми)
Нікос М.

@Nikos Дякую, але що не є інваріантним масштабом? Обидва іSDзмінюються під час масштабування даних. SD/NSD
whuber

5

Припустимо, що ваш зразок містить лише дві реалізації. Я думаю, інтуїтивно зрозумілим показником дисперсії було б середнє абсолютне відхилення (AAD)

AAD=12(|x1x¯|+|x2x¯|)=...=|x1x2|2

Отже, ми хотіли б, щоб інші міри диспергування на тому ж рівні одиниць вимірювання були "близькими" до вищезгаданих.

Дисперсія вибірки визначається як

σ2=12[(x1x¯)2+(x2x¯)2]=12[(x1x22)2+(x2x12)2]

=12[(x1x2)24+(x1x2)24]=12(x1x2)22

=12|x1x2|22

To return to the original units of measurement, if we did as the student wondered/suggested,we would obtain the measure, call it q

q12|x1x2|22=12|x1x2|2=12AAD<AAD

i.e. we would have "downplayed" the "intuitive" measure of dispersion, while if we have considered the standard deviation as defined,

SDσ2=|x1x2|2=AAD

Since we want to "stay as close as possible" to the intuitive measure, we should use SD.

ADDENDUM
Let's consider now a sample of size n We have

nAAD=i=1n|xix¯|

and

nVar(X)=i=1n(xix¯)2=i=1n|xix¯|2

we can write the right-hand side of the variance expression as

i=1n|xix¯|2=(i=1n|xix¯|)2ji|xix¯||xjx¯|

=(nAAD)2ji|xix¯||xjx¯|

Then the dispersion measure qn will be

qn1n[n2AAD2ji|xix¯||xjx¯|]1/2

=[AAD21n2ji|xix¯||xjx¯|]1/2

Now think informally: note that ji|xix¯||xjx¯| contains n2n terms, and so divided by n2 will left us with "one term in the second power". But also "one term in the 2nd power" is what we have in AAD2: this is a primitive way to "sense" why qn will tend to zero as n grows large. On the other hand the Standard Deviation as defined would be

SD1n[n2AAD2ji|xix¯||xjx¯|]1/2

=[nAAD21nji|xix¯||xjx¯|]1/2

Continuing are informal thinking, the first term gives us n "terms in the 2nd power", while the second term gives us n1 "terms in the second power" . So we will be left eventually with one such term, as n grows large, and then we will take its square root.
This does not mean that the Standard Deviation as defined will equal the Average Absolute Deviation in general (it doesn't), but it does show that it is suitably defined so as to be "on a par" with it for any n, as well as for the case when n.


1
Although this answer is interesting, I believe there are more important, convincing, and rigorous explanations (of which I have offered only a few in my own answer: much more could be said, especially concerning the role of the SD in the Central Limit theorem and algebraic rules for computing SDs of sums of independent random variables).
whuber

2
@whuber Certainly. I just opted for a "the bell has rung" approach to destroy the student's intermission!
Alecos Papadopoulos
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.