Середнє абсолютне відхилення проти стандартного відхилення


35

У підручнику «Нова всеосяжна математика для рівня O» Грера (1983) я бачу усереднене відхилення, обчислене так:

Підсумуйте абсолютні різниці між одиничними значеннями та середніми. Тоді отримайте його середнє значення. У розділі використовується термін середнє відхилення .

Але я нещодавно бачив кілька посилань, які використовують термін стандартне відхилення, і це те, що вони роблять:

Обчисліть квадрати різниці між одиничними значеннями та середніми. Потім отримайте їх середнє значення і, нарешті, корінь відповіді.

Я спробував обидва методи на загальному наборі даних, і їх відповіді відрізняються. Я не статистик. Я розгубився, намагаючись навчити своїх дітей девіації.

Отже, коротко, чи терміни стандартне відхилення та середнє відхилення однакові чи моя стара книга з текстами невірна?


2
Дві кількості відрізняються. Вони по-різному зважують дані. Стандартне відхилення буде більше, і на відносно більше впливатимуть більші значення. Стандартне відхилення (особливо, версія n-знаменника) можна розглядати як відхилення середньоквадратичного відхилення. Частіше використовуються стандартні відхилення.
Glen_b -Встановіть Моніку

6
Дуже тісно пов'язані : stats.stackexchange.com/questions/118 / ... .
whuber


1
До речі, одна з причин того, що люди, як правило, віддають перевагу стандартному відхиленню, полягає в тому, що додаються відхилення сум неспоріднених випадкових величин (і пов'язані з ними також мають просту формулу). Це не відбувається із середнім відхиленням.
Glen_b -Встановіть Моніку

2
@ Алексис фразування був поганим. Для незалежних випадкових величин Var (X + Y) = Var (X) + Var (Y). Цей факт використовується в усьому світі (він призводить до звичних термінів при стандартизації формул, що включають засоби, як, наприклад, в одній вибірковій t-статистиці). Відповідно загального факту для середнього відхилення немає. n
Glen_b -Встановіть Моніку

Відповіді:


27

Обидва відповідають на те, наскільки розподілені ваші значення навколо середнього значення спостережень.

Спостереження, яке дорівнює 1 середньому, однаково "далеко" від середнього, як значення, яке на 1 вище середнього. Отже, слід знехтувати ознакою відхилення. Це можна зробити двома способами:

  • Обчисліть абсолютне значення відхилень і підсумовуйте їх.

  • Накресліть відхилення і підсумовуйте ці квадрати. Завдяки квадрату ви надаєте більше ваги великим відхиленням, а значить, сума цих квадратів буде відрізнятися від суми значень.

Обчисливши "суму абсолютних відхилень" або "квадратний корінь суми відхилень у квадраті", ви в середньому їх отримуєте відповідно "середнє відхилення" та "стандартне відхилення".

Середнє відхилення використовується рідко.


Отже, коли просто сказати "відхилення", чи означають вони "стандартне відхилення"?
itols

Я погоджуюся, що 1 вище або нижче вказуватиме на змістовну «зміну» або «дисперсію» з точки зору простолюдини. Але квадратування дало б більші значення, і це може бути не моєю «фактичною зміною». Можливо, я помиляюся, але саме так я це бачу: /
itsols

У більшості випадків використовується термін стандартне відхилення (квадратний дисперсійний корінь). Обчислення квадратів зазвичай робиться, оскільки це полегшує безліч інших обчислень.
Каспер

1
@itsols Технічно завжди слід вказувати, який тип статистики відхилень ви обчислюєте для набору даних - слово відхилення самостійно повинно посилатися на відхилення однієї точки даних від середньої величини (так, як Каспер використовує це у відповіді ).
AmeliaBR

@itsols, +1 до Амелії. Дійсно, ніхто не говорить про статистику набору даних як просто "відхилення". Статистика - це "середнє абсолютне відхилення" або "корінь середнього квадратичного відхилення" або подібне.
ttnphns

15

Сьогодні статистичні значення переважно обчислюються комп’ютерними програмами (Excel, ...), а не ручними калькуляторами. Отже, я б сказав, що обчислення "середнього відхилення" не є більш громіздким, ніж обчислення "стандартного відхилення". Хоча стандартне відхилення може мати "... математичні властивості, які роблять його більш корисним у статистиці", це насправді є спотворенням поняття дисперсії від середнього, оскільки воно надає додаткову вагу точкам даних, далеким від середнього значення. Це може зайняти деякий час, але я, сподіваюся, статистики повертаються до використання "середнього відхилення" частіше, коли обговорюють розподіл серед точок даних - це більш точно відображає, як ми насправді думаємо про розподіл.


Ви робите надзвичайну претензію на те, як (статистично кваліфіковані) люди "насправді думають". Яке джерело вашої інформації про це?
whuber

7
Джерело - це просто люди, яких я допитував на цю тему, а також я. На запитання: Як ви відображаєте варіацію цього набору даних? відповідь завжди виражалася у вигляді лінійної відстані від середньої - відповідь ніколи не включала квадратів або квадратних коренів. Зрозуміло, я інженер, а не "статистик", але я б попросив будь-кого іншого поставити собі виклик на цю тему. Так, ми любимо математику стандартного відхилення - це весело, але чи справді ти так уявляєш відхилення від середнього?
andyl

2
Це залежить від мети. Для дослідження даних я, як правило, використовую ґрунтовні оцінки, що ґрунтуються на ранговій оцінці, такі як середні відхилення від медіанів, які за духом близькі до вашої пропозиції. Але для багатьох інших робіт, особливо при оцінці (навіть подумки) потенціалу статистичної значущості, оцінці відповідних розмірів вибірки, з'ясуванні цінності інформації та вирішенні серед конкуруючих статистичних процедур, мислення з точки зору відхилень (а отже, стандартних відхилень) є істотне. Середні відхилення не підміняють, як це наочно показує математика.
whuber

1
Ознайомтеся з цим документом .
Піт

@Pete Як ти туди дістався?
Vicrobot

9

Вони обидва вимірюють одне і те ж поняття, але не є рівними.

Ви порівнюєтез . Вони не рівні з двох причин:1n|xix¯|1n(xix¯)2

По-перше, оператор квадратного корінця не є лінійним, або . Тому сума абсолютних відхилень не дорівнює квадратному кореню суми відхилень у квадраті, навіть незважаючи на те, що абсолютна функція може бути представлена ​​як квадратна функція, а за нею квадратний корінь: оскільки квадратний корінь береться після обчислення суми.| xi- ˉ x | =a+ba+b
|xix¯|=(xix¯)2(xix¯)2

По-друге , зараз також знаходиться під квадратним коренем у розрахунку стандартного відхилення.n

Спробуйте обчислити - це має дати ту саму відповідь, що й середнє відхилення, і допоможе вам зрозуміти.1n(xix¯)2

Причина, чому віддається перевага стандартному відхиленню, полягає в тому, що математично простіше працювати з подальшою формою, коли обчислення ускладнюються.


3
Абсолютна величина суми взагалі не така, як сума абсолютних значень! Ні квадратні, квадратні корені, ні абсолютні функції не є лінійними, тому сума після застосування функції відрізняється від застосування функції після взяття суми.
AmeliaBR

@AmeliaBR ви, звичайно, абсолютно правильні!
ltronneberg

Однак решта аргументів була хорошою, тому я вирішив відредагувати проблематичне твердження.
AmeliaBR

8

@itsols, я додам до важливого поняття Каспера, що The mean deviation is rarely used. Чому стандартне відхилення вважається загалом кращим показником мінливості, ніж середнє абсолютне відхилення? Тому що середнє арифметичне - це місце мінімальної суми квадратних (а не суми абсолютних) відхилень від нього.

Припустимо, ви хочете оцінити ступінь альтруїзму. Тоді ви, мабуть, не запитаєте людину про те, наскільки він готовий дати гроші в "загальній ситуації" життя. Швидше, ви вирішите запитати, наскільки він готовий зробити це в ситуації, що зберігається, де у нього є мінімальні можливі ресурси для власного життя. Тобто, яка кількість індивідуального альтруїзму в ситуації, коли ця сума є мінімальною?

Аналогічно, яка ступінь мінливості цих даних? Інтуїтивно, найкращий показник вимірювання для нього - той, який мінімізується (або максимізується) до межі в цьому контексті. Контекст "навколо середнього арифметичного". Тоді вул. відхилення - найкращий вибір у цьому сенсі. Якщо контекст був "навколо медіани", то означає | відхилення | було б найкращим вибором, оскільки медіана - це місце мінімальної суми абсолютних відхилень від неї.


4
Ваше обґрунтування для SD на базі Локуса є круговим. Ви виправдовуєте SD, надаючи особливого значення середньому арифметичному - все це свідчить про те, що вони мають стосунки, а не те, що SD є особливим. Так само можна надати значення медіани, яка є місцем мінімальної суми абсолютних втрат. Справжні причини, чому SD використовується частіше, полягають у тому, що з математикою простіше працювати ... крім того, це простіше обчислювально (і тому, що медіани вимагають "сортування", і тому, що квадрати швидше обчислювати, ніж виписки гілок). Філософсько абсолютне відхилення має більшу цінність.
samthebest

7

Варто додати ще одне, що найвірогіднішою причиною того, що ваш 30-річний підручник використовував абсолютне середнє відхилення на відміну від стандартного відхилення, полягає в тому, що його простіше обчислити вручну (немає кореневих / квадратних коренів). Тепер, коли калькулятори легко доступні для старшокласників, немає причин не просити їх обчислити стандартне відхилення.

Є ще деякі ситуації, коли замість стандартних відхилень застосовуються абсолютні відхилення в комплектації складної моделі. Абсолютні відхилення менш чутливі до екстремальних переживань (значення, далекі від середнього / тренд), порівняно зі стандартними відхиленнями, оскільки вони не квадратизують цю відстань, перш ніж додавати її до значень з інших точок даних. Оскільки методи підгонки моделей мають на меті зменшити загальне відхилення від лінії тренду (відповідно до того, який відхилення є розрахунком), методи, які використовують стандартне відхилення, можуть у кінцевому підсумку створити лінію тренду, яка відходить від більшості точок, щоб бути ближче до сторонніх . Використання абсолютних відхилень зменшує це спотворення, але ціною ускладнення обчислення лінії тренду.

Це тому, що, як зазначають інші, стандартне відхилення має математичні властивості та зв'язки, які, як правило, роблять його більш корисним у статистиці. Але "корисне" ніколи не слід плутати з ідеальним.


1
просто цікаво, які "математичні властивості" роблять SD більш корисним, ніж середнє абсолютне відхилення? чудова відповідь до речі.
Weipeng L

@pongba Стандартне відхилення є властивим для багатьох статистичних моделей, які передбачають випадкові відхилення від декількох ефектів, які можуть скасовувати один одного (також, як правило, розподілені дані). Сюди входить точність вибірки (похибка) при використанні опитування з великої сукупності. Якщо ваші дані відповідають цій моделі, ви можете оцінити ймовірність отримання значення від числа SD від середнього. Ви можете обчислити SD декількох незалежних ефектів від SD окремих компонентів. Дивіться також: en.m.wikipedia.org/wiki/Standard_deviation
AmeliaBR

7

Обидва вимірюють дисперсність ваших даних, обчислюючи відстань даних до їх середнього значення.

  1. середнє абсолютне відхилення використовує норму L1 (її також називають Манхеттен відстань або прямолінійний відстань )
  2. для стандартного відхилення використовується норма L2 (також звана евклідовою відстані )

Різниця між цими двома нормами є те , що стандартне відхилення обчислює квадрат різниці , тоді як середнє абсолютне відхилення тільки дивиться на абсолютній різниці. Таким чином, великі люди, що вижили, створюють більшу дисперсію при використанні стандартного відхилення замість іншого методу. Евклідова відстань справді також частіше використовується. Основна причина - стандартне відхиленнямають приємні властивості, коли дані нормально поширюються. Тому за цим припущенням рекомендується використовувати його. Однак люди часто роблять це припущення щодо даних, які насправді зазвичай не поширюються, що створює проблеми. Якщо ваші дані зазвичай не розповсюджуються, ви все одно можете використовувати стандартне відхилення, але ви повинні бути обережні з інтерпретацією результатів.

Нарешті, ви повинні знати, що обидва міри диспергування - це окремі випадки відстані Міньковського , при p = 1 і p = 2. Ви можете збільшити p, щоб отримати інші заходи щодо розповсюдження ваших даних.


На цю тему також є допис про math.stackexchange: math.stackexchange.com/questions/384003/l1-norm-and-l2-norm
RockScience

6

Вони є аналогічними заходами, які намагаються кількісно оцінити одне і те ж поняття. Зазвичай ви використовуєте st. відхилення, оскільки воно має приємні властивості, якщо зробити певне припущення про базовий розподіл.

З іншого боку, абсолютне значення середнього відхилення викликає деякі проблеми з математичної точки зору, оскільки ви не можете його диференціювати і не можете легко проаналізувати. Деякі дискусії тут .


1

Ні. Ви помиляєтесь. Просто шуткую. Однак є багато життєздатних причин, через які можна було б обчислити середнє відхилення, а не формальне std, і таким чином я згоден з точкою зору моїх братів-інженерів. Звичайно, якщо я обчислюю статистику для порівняння з частиною існуючої роботи, яка виражає якісні, а також кількісні висновки, я б дотримувався std. Але, припустимо, я намагаюся запустити швидкуалгоритми виявлення аномалії на двійкових, генерованих машиною даних. Я не після академічних порівнянь як своєї остаточної мети. Але мене цікавить фундаментальний висновок про "поширення" певного потоку даних про його середню. Мені також цікаво обчислити це повторно та максимально ефективно. У цифровому електронному обладнанні ми весь час виконуємо брудні хитрощі - перегортаємо множення та поділи на зсув ліворуч і праворуч відповідно, а для "обчислення" абсолютних значень ми просто скидаємо біт знака (і, якщо потрібно, обчислюємо доповнення одного чи двох) , обидва легкі перетворення). Отже, мій вибір полягає в тому, щоб обчислити його максимально перетягуючим способом, і застосувати лінійні пороги до моїх обчислень для швидкого виявлення аномалії протягом потрібних часових вікон.


1
Стандартне відхилення можна обчислити ефективно та просто за допомогою онлайн-алгоритму, як і будь-який момент (включаючи середнє абсолютне відхилення). Таким чином, вимога швидкого чи простого обчислення не виключає цього (а також не виключає жодних оціночних факторів розподілу на основі моменту).
whuber

0

Два заходи дійсно різняться. Перший часто називають середньою абсолютною девіацією (MAD), а другий - Standard Deviation (STD). У вбудованих додатках із сильно обмеженою обчислювальною потужністю та обмеженою пам'яттю програми, уникати обчислень квадратних коренів може бути дуже бажано.

З швидкого грубого тестування видно, що MAD = f * STD з f десь від 0,78 до 0,80 для набору випадкових вибірок, розподілених гауссом.


0

У Amar Sagoo є дуже хороша стаття, яка пояснює це: [ http://blog.amarsagoo.info/2007/09/making-sense-of-standard-deviation.html]

Щоб додати власну спробу інтуїтивного розуміння:

Середнє відхилення - це гідний спосіб запитати, наскільки гіпотетична "середня" точка від середньої, але насправді це не спрацює із запитанням, наскільки всі точки одна від одної, або наскільки "розповсюджені" дані.

Стандартне відхилення задає питання про те, наскільки далеко розташовані всі точки, тому в нього міститься більше корисної інформації, ніж просто середнє відхилення (саме тому середнє відхилення зазвичай використовується лише як сходинка до розуміння стандартного відхилення).

Гарною аналогією є теорема Піфагора. Теорема Піфагора повідомляє нам про відстань між точками у двох вимірах, приймаючи горизонтальну відстань та вертикальну відстань, квадратуючи їх, додаючи квадрати та беручи квадратний корінь від загальної суми.

Якщо ви уважно придивитесь до цього, формула для (популяції) стандартного відхилення в основному така ж, як теорема Піфагора, але має набагато більше двох вимірів (і використовуючи відстань від кожної точки до середнього, як відстань у кожному вимірі). Як такий, він дає найбільш точну картину "відстані" між усіма точками у вашому наборі даних.

Щоб просунути цю аналогію трохи далі, середнє абсолютне відхилення було б таким, як взяти середнє значення горизонтальної та вертикальної відстаней, яке коротше загальної відстані, тоді як сума абсолютного відхилення додала б горизонтальну та вертикальну відстані, що довше ніж фактична відстань.


Я припускаю, що, коли ви говорите середнє відхилення, ви маєте на увазі середнє абсолютно відхилення, про що говорив ОП. Термінологія є важливою, оскільки середнє відхилення завжди дорівнює 0. Що стосується різниці між середнім абсолютним відхиленням та стандартним відхиленням, вони включають відхилення ВСІХ балів від середнього. Один передбачає суму абсолютних відхилень від середнього значення, тоді як квадратний корінь, якщо сума квадратичного відхилення ..
Майкл Р. Черник

0

Стандартне відхилення являє собою дисперсію внаслідок випадкових процесів. Зокрема, багато фізичних вимірювань, які, як очікується, будуть обумовлені сумою багатьох незалежних процесів, мають нормальне (крива дзвона) розподіл.

Y=1σ2πe(xμ)22σ2

Yxμσ

Іншими словами, стандартне відхилення - це термін, який виникає з незалежних випадкових величин, що підсумовуються разом. Отже, я не погоджуюся з деякими з наведених тут відповідей - стандартне відхилення не є просто альтернативою середньому відхиленню, яке "виявляється більш зручним для наступних розрахунків". Стандартне відхилення - це правильний спосіб моделювання дисперсії для нормально розподілених явищ.

Якщо ви подивитесь на рівняння, то видно, що стандартне відхилення сильніше зважує більші відхилення від середнього. Інтуїтивно можна вважати середнє відхилення як вимірювання фактичного середнього відхилення від середнього, тоді як стандартне відхилення пояснює дзвінок у формі «нормального» розподілу навколо середнього. Отже, якщо ваші дані звичайно поширюються, стандартне відхилення говорить про те, що якщо ви відібраєте більше значень, ~ 68% з них виявляться в межах одного стандартного відхилення навколо середнього.

З іншого боку, якщо у вас є одна випадкова величина, розподіл може виглядати як прямокутник, з однаковою ймовірністю значень, що з’являються в будь-якому місці діапазону. У цьому випадку середнє відхилення може бути більш доречним.

TL; DR якщо у вас є дані, пов'язані з багатьма основними випадковими процесами, або які ви просто знаєте, що вони нормально розподіляються, використовуйте функцію стандартного відхилення.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.