Чому квадратна різниця замість того, щоб приймати абсолютне значення в стандартному відхиленні?
Розподіляємо різницю x на середню, оскільки евклідова відстань, пропорційна квадратному кореню ступенів свободи (кількість x, у мірі чисельності), є найкращим показником дисперсії.
Розрахунок відстані
Яка відстань від точки 0 до точки 5?
- 5 - 0 = 5,
- | 0-5 | =5, і
- 52--√= 5
Гаразд, це банально, тому що це єдиний вимір.
Як щодо відстані точки до точки 0, 0 до точки 3, 4?
Якщо ми можемо одночасно переходити лише в 1 вимір (наприклад, у міські квартали), тоді ми просто додаємо цифри. (Це іноді відоме як відстань на Манхеттені).
Але що робити в двох вимірах одночасно? Потім (за теоремою Піфагора, яку ми всі вивчали в середній школі), ми квадратуємо відстань у кожному вимірі, підсумовуємо квадрати, а потім беремо квадратний корінь, щоб знайти відстань від початку від точки.
32+ 42------√= 25--√= 5
Як щодо відстані від точки в 0, 0, 0 до точки 1, 2, 2?
Це просто
12+ 22+ 22----------√= 9-√= 3
оскільки відстань для перших двох x-х утворює ногу для обчислення загальної відстані з кінцевим x.
х21+ х22------√2+ х23-------------√= х21+ х22+ х23----------√
Ми можемо продовжувати розширювати правило розподілу відстані кожного виміру, це узагальнюється до того, що ми називаємо евклідовою дистанцією, для ортогональних вимірювань у гіпервимірному просторі, наприклад:
гi s t a n c e = ∑i = 1нх2i-----√
і тому сума ортогональних квадратів - це відстань у квадраті:
гi s t a n c e2= ∑i = 1нх2i
Що робить ортогональне вимірювання (або під прямим кутом) іншого? Умова полягає в тому, що між двома вимірюваннями немає взаємозв'язку. Ми хотіли б, щоб ці вимірювання були незалежними та індивідуально розподіленими ( iid ).
Варіантність
Тепер пригадайте формулу дисперсії населення (від якої ми отримаємо стандартне відхилення):
σ2= ∑i = 1н( хi- мк )2н
Якщо ми вже зосереджували дані на 0, віднімаючи середнє значення, ми маємо:
σ2= ∑i = 1н( хi)2н
Отже, ми бачимо, що дисперсія - це просто відстань у квадраті, поділене на кількість ступенів свободи (кількість вимірів, на які змінні можуть змінюватися). Це також середній внесок угi s t a n c e2за вимірювання. "Середня квадратична дисперсія" також була б відповідним терміном.
Стандартне відхилення
Тоді маємо стандартне відхилення, яке є просто квадратним коренем дисперсії:
σ= ∑i = 1н( хi- мк )2н-----------⎷
Що еквівалентно відстані , поділеному на квадратний корінь ступенів свободи:
σ= ∑i = 1н( хi)2-------√н--√
Середнє абсолютне відхилення
Середнє абсолютне відхилення (MAD) - це міра дисперсії, яка використовує відстань Манхеттена, або сума абсолютних значень відмінностей від середнього.
МA D = ∑i = 1н| хi- мк |н
Знову ж таки, припускаючи, що дані центрировані (середнє віднімання), відстань на Манхеттені ділиться на кількість вимірювань:
МA D = ∑i = 1н| хi|н
Обговорення
- Середнє абсолютне відхилення становить приблизно .8 разів ( фактично2 / π---√) розмір стандартного відхилення для нормально розподіленого набору даних.
- Незалежно від розподілу, середнє абсолютне відхилення менше або дорівнює стандартному відхиленню. MAD занижує розсіювання набору даних із екстремальними значеннями щодо стандартного відхилення.
- Середнє абсолютне відхилення є більш надійним для людей, що втрачають повсякденне життя (тобто, люди, що втрачають повсякденність, не мають настільки сильного впливу на статистику, як на стандартне відхилення.
- Геометрично кажучи, якщо вимірювання не є ортогональними один до одного (наприклад, якщо вони були позитивно корельованими, середнє абсолютне відхилення було б кращою описовою статистикою, ніж стандартне відхилення, яке спирається на евклідову відстань (хоча це зазвичай вважається нормальним) ).
Ця таблиця відображає вищезазначену інформацію більш стисло:
s i zеs i zе , ∼ No u t l i e r sn o t i . i . г .МA D≤ σ.8 × σr o b u s tr o b u s tσ≥ МA D1,25 × МA Di n fл у е н с е до к
Коментарі:
Чи є у вас посилання на "середнє абсолютне відхилення приблизно в .8 разів перевищує розмір стандартного відхилення для нормально розподіленого набору даних"? Моделювання, які я виконую, показують, що це неправильно.
Ось 10 моделювання одного мільйона зразків із стандартного нормального розподілу:
>>> from numpy.random import standard_normal
>>> from numpy import mean, absolute
>>> for _ in range(10):
... array = standard_normal(1_000_000)
... print(numpy.std(array), mean(absolute(array - mean(array))))
...
0.9999303226807994 0.7980634269273035
1.001126461808081 0.7985832977798981
0.9994247275533893 0.7980171649802613
0.9994142105335478 0.7972367136320848
1.0001188211817726 0.798021564315937
1.000442654481297 0.7981845236910842
1.0001537518728232 0.7975554993742403
1.0002838369191982 0.798143108250063
0.9999060114455384 0.797895284109523
1.0004871065680165 0.798726062813422
Висновок
Ми вважаємо за краще квадратичні різниці при обчисленні міри дисперсії, оскільки ми можемо використовувати евклідову відстань, що дає нам кращу описову статистику дисперсії. Коли є більш відносні екстремальні величини, евклідова відстань враховує це в статистиці, тоді як відстань на Манхеттені дає кожному виміру рівну вагу.