Чому квадратна різниця замість того, щоб приймати абсолютне значення в стандартному відхиленні?


408

У визначенні стандартного відхилення, чому нам доводиться квадратну відмінність від середнього, щоб отримати середнє (E), і повернути квадратний корінь назад в кінці? Чи не можемо ми просто просто взяти абсолютне значення різниці замість цього і отримати очікуване значення (середнє значення), а чи не буде це також показано варіацію даних? Число буде відрізнятися від квадратного методу (метод абсолютного значення буде меншим), але він все одно повинен показувати поширення даних. Хтось знає, чому ми приймаємо цей квадратний підхід як стандарт?

Визначення стандартного відхилення:

σ=E[(Xμ)2].

Чи не можемо ми просто взяти абсолютне значення замість цього і все-таки бути хорошим вимірюванням?

σ=E[|Xμ|]


25
Зрештою, запропоноване вами вимірювання широко застосовується у разі аналізу помилок (якості моделі) - тоді воно називається МАЕ, "середня абсолютна помилка".

8
Приймаючи відповідь, мені здається важливим, що ми звертаємо увагу на те, чи є відповідь круговою. Нормальний розподіл заснований на цих вимірюваннях дисперсії від квадратичних помилок, але це саме по собі не є виправданням для використання (XM) ^ 2 над | XM |.
russellpierce

2
Як ви вважаєте, термін стандарт означає, що це стандарт сьогодні? Хіба це не так, як запитати, чому головний компонент "головний", а не другорядний?
Робін Жирард

51
Кожна відповідь, запропонована поки що, є круговою. Вони зосереджені на простоті математичних обчислень (що приємно, але аж ніяк не фундаментально) або на властивості гауссового (нормального) розподілу та OLS. Близько 1800 р. Гаус почав з найменшими квадратами та дисперсією, а з тих, що отримали нормальний розподіл - є кругова. По-справжньому фундаментальна причина, на яку ще не було посилатися жодної відповіді, - це унікальна роль, яку відіграє дисперсія в теоремі про центральний межа . Інша важливість у теорії рішень щодо мінімізації квадратичних втрат.
whuber

2
Taleb робить випадок на Edge.org для виходу зі стандартного відхилення та використання середнього абсолютного відхилення.
Алекс Холкомб

Відповіді:


188

Якщо мета стандартного відхилення полягає в підведенні підсумків поширення симетричного набору даних (тобто загалом, наскільки кожна дата знаходиться від середньої величини), то нам потрібен хороший метод визначення способу вимірювання цього поширення.

До переваг квадратури належать:

  • Квадратування завжди дає позитивне значення, тому сума не буде нульовою.
  • Квадратура підкреслює більші відмінності - особливість, яка виявляється як хорошою, так і поганою (подумайте про те, який ефект надають).

Однак у квадратиків є проблема як показник спред, і це те, що всі одиниці розміщені в квадраті, тоді як ми можемо вважати за краще, щоб спред був у тих самих одиницях, що і вихідні дані (подумайте про квадратні фунти, квадратні долари або яблука в квадраті) . Отже квадратний корінь дозволяє повернутися до початкових одиниць.

Я припускаю, що можна сказати, що абсолютна різниця приділяє рівну вагу поширенню даних, тоді як квадратура підкреслює крайності. Технічно, хоча, як зазначали інші, квадратування полегшує роботу алгебри і пропонує властивості, яких не має абсолютний метод (наприклад, дисперсія дорівнює очікуваному значенню квадрата розподілу за мінусом квадрата середнє значення розподілу)

Важливо зауважити, що немає причин, щоб ви не могли взяти абсолютну різницю, якщо це ваше перевагу щодо того, як ви хочете переглянути "поширення" (як-то, як деякі люди бачать 5% як якийсь магічний поріг для -значень, коли насправді це залежить від ситуації). Дійсно, існує кілька конкуруючих методів вимірювання поширення.p

Моя думка полягає у використанні значень у квадраті, тому що мені подобається думати, як це стосується піфагорійської теоретики статистики: ... це також допомагає мені пам'ятати, що при роботі з незалежними випадковими змінними додаються відхилення, стандартні відхилення не мають. Але це лише мої особистісні суб'єктивні переваги, які я здебільшого використовую лише як допомогу пам’яті, сміливо ігноруйте цей параграф.c=a2+b2

Набагато більш глибокий аналіз можна прочитати тут .


72
"Квадратування завжди дає позитивне значення, тому сума не буде нульовою." і так само абсолютні значення.
Робін Жирард

32
@robin girard: Це правильно, отже, чому я передував цій точці з "Переваги квадратування включають". Я не мав на увазі, що в цьому твердженні нічого про абсолютні значення. Я вважаю, що я буду розглядати питання про видалення / перефразовування, якщо інші вважають це незрозумілим.
Тоні Брейял

15
Значна частина надійної статистики - це спроба розібратися із надмірною чутливістю до людей, що випадають, що є наслідком вибору дисперсії як міри розповсюдження даних (технічно масштабної чи дисперсійної). en.wikipedia.org/wiki/Robust_statistics
Thylacoleo

5
Стаття, пов’язана у відповіді, - це Бог надіслати.
traggatmot

1
Я думаю, що абзац про Піфагора є місцем. Ви можете вважати помилку як вектор у вимірах, при цьому n - кількість зразків. Розмір у кожному вимірі є різницею від середнього значення для цього зразка. [ ( Х 1 - μ ) , ( х 2 - μ ) , ( х 3 - μ ) , . . . ] Довжина цього вектора (Піфагор) - це корінь підсумованих квадратів, тобто стандартне відхилення. nн[(x1μ),(x2μ),(х3-мк),...]
Arne Brasseur

138

Різниця у квадраті має приємніші математичні властивості; це постійно диференціюється (приємно, коли ви хочете його мінімізувати), це достатня статистика для розподілу Гаусса, і це (версія) норма L2, яка корисна для доведення конвергенції тощо.

Середнє абсолютне відхилення (запропоноване вами позначення абсолютного значення) також використовується як міра дисперсії, але це не так "добре поводиться", як помилка квадрата.


2
сказав "це постійно диференціюється (приємно, коли ти хочеш його мінімізувати)" ти маєш на увазі, що абсолютне значення важко оптимізувати?
Робін Жирард

29
@robin: хоча функція абсолютного значення безперервна скрізь, її перша похідна не є (при x = 0). Це ускладнює аналітичну оптимізацію.
Вінс

12
Так, але знайти фактичне число, яке ви хочете, а не просто його дескриптор, легше за допомогою втрати в квадраті. Розглянемо випадок 1 розмірності; ви можете виразити мінімізатор помилки квадрата середнім: O (n) операціями та закритою формою. Ви можете виразити значення абсолютного мінімізатора помилок за медіаною, але не існує рішення закритої форми, яке говорить про те, що таке медіанне; для його знаходження потрібен сорт, який є на зразок O (n log n). Рішення з найменшими квадратами, як правило, є простою операцією типу «підключення та чугун», а рішення з абсолютними значеннями зазвичай потребують більшої роботи.
Багатий

5
@ Rich: і дисперсію, і медіану можна знайти в лінійний час, і, звичайно, не швидше. Медіана не потребує сортування.
Ніл Г


84

Один із способів можна подумати про це, що стандартне відхилення схоже на "відстань від середнього".

Порівняйте це з відстанями в евклідовому просторі - це дає вам справжню відстань, де те, що ви запропонували (що, до речі, є абсолютним відхиленням ), більше схоже на розрахунок відстані на Манхеттені .


17
Приємна аналогія евклідового простору!
c4il

2
За винятком того, що в одному вимірі норма і l 2 - це одне і те ж, чи не так? l1l2
naught101

5
@ naught101: Це не один вимір, а швидше розмірів, де n - кількість зразків. Стандартне відхилення і абсолютне відхилення (масштабовані) l 2 іннл2 відстані відповідно між двома точками ( x 1 , x 2л1 і ( μ , μ , , μ ), де μ - середнє значення . (х1,х2,,хн)(μ,μ,,μ)μ
ShreevatsaR

1
Це має бути змінено як мінімальне відстань від середнього. По суті це рівняння Піфагора.
Іван

56

Причина , що ми розрахувати стандартне відхилення замість абсолютної похибки в тому , що ми в припущенні про помилку , щоб бути нормально розподілені . Це частина моделі.

Припустимо, ви вимірювали дуже малі довжини лінійкою, тоді стандартне відхилення - це поганий показник помилки, оскільки ви знаєте, що ніколи не випадково вимірите від'ємну довжину. Кращий показник міг би допомогти пристосувати розподіл гамми до ваших вимірювань:

log(E(x))E(log(x))

Як і стандартне відхилення, це також є негативним та диференційованим, але це краща статистика помилок для цієї проблеми.


3
Мені подобається ваша відповідь. SD не завжди є найкращою статистикою.
RockScience

2
Чудовий зустрічний приклад того, коли стандартне відхилення - не найкращий спосіб думати про розміри коливань.
Хбар

Якщо ви не маєте протилежного знаку щодо кількості, щоб отримати позитивний показник - використовуючи опуклий замість увігнутого журналуlogxlogx ?
AS

@AS Ні, це вже завжди позитивно. Він дорівнює нулю, коли всі зразкиx рівні, інакше величина вимірює зміну.
Ніл Г

Ви помиляєтесь. для увігнутих gE(g(X))g(E(X))g .
AS

25

Відповідь, яка мене найбільше задовольнила, полягає в тому, що вона природно випадає з узагальнення вибірки до n-мірного евклідового простору. Це, безумовно, дискусійно, чи варто щось робити, але в будь-якому випадку:

Припустимо, що ваші вимірювань X i - це кожна вісь у R n . Тоді ваші дані x я визначаю крапку x у цьому просторі. Тепер ви можете помітити, що всі дані дуже схожі між собою, тому ви можете представити їх за допомогою одного параметра розташування μ , обмеженого лежати на лінії, визначеній X i = μ . Проектуючи свій Datapoint на цій лінії отримує ви цnXiRnxixμXi=μ , а відстань від проектованої точкиμ^=x¯фактичної точки даних єμ^1.n1nσ^=xμ^1

Цей підхід також отримує вас геометричну інтерпретацію для .ρ^=cos(x~,y~)


7
Це правильно і привабливо. Однак, врешті-решт, це питання лише перефразовує питання, не відповідаючи на нього: а чому ми повинні використовувати відстань Евкліда (L2)?
качан

20
@sesqu Стандартні відхилення не стали звичними, поки Гаус в 1809 р. не отримав своє однойменне відхилення, використовуючи в якості вихідної помилки квадрат, а не абсолютну помилку. Однак те, що підштовхнуло їх до вершини (я вважаю), - це теорія регресії Галтона (на яку ви натякаєте) та здатність ANOVA розкладати суми квадратів - що означає перерахунок теореми Піфагора, відносини, якими користується лише Норма L2. Таким чином, SD стала природною мірою поширення, яку пропагували у 1925 р. "Статистичні методи для дослідників" Фішера, і ось ми, 85 років потому.
качан

13
(+1) Продовжуючи жити @ whuber, я б сказав, що Студент опублікував статтю в 1908 році під назвою "Ймовірні помилки середнього - Ей, хлопці, перевірте, що МАЄ в знаменнику!" тоді статистика мала б зовсім інше обличчя. Звичайно, він не опублікував такий документ, і, звичайно, не міг цього, тому що МАЕ не може похвалитися всіма приємними властивостями, якими володіє S ^ 2. Один з них (пов'язаний зі Стьюдентом) - це його незалежність від середнього (у звичайному випадку), що, звичайно, є перерахуванням ортогональності, що повертає нас до L2 та внутрішнього продукту.

3
Ця відповідь викликала думки, і я вважаю, що мій переважний спосіб її перегляду. У 1-D важко зрозуміти, чому різниця в квадраті вважається кращою. Але в декількох вимірах (або навіть просто в 2) можна легко побачити, що евклідова відстань (квадратура) є кращою для відстані Манхеттена (сума абсолютного значення різниць).
thecity2

1
@whuber Чи можете ви пояснити, що означає "рядок, визначений Xᵢ = μ"? Це лінія, що проходить через початок і точку (μ, μ, ..., μ)? Також де я можу прочитати більше про це?
Арка Стентона

18

Вирахування різниці від середнього має декілька причин.

  • Варіант визначається як 2-й момент відхилення (ось тут RV ), і таким чином квадрат як моменти є просто очікуванням вищих потужностей випадкової величини.(xμ)

  • Наявність квадрата на відміну від функції абсолютного значення дає приємну безперервну і диференційовану функцію (абсолютна величина не диференційована при 0) - що робить її природним вибором, особливо в контексті аналізу та регресійного аналізу.

  • Формуляр у формі квадрата також природно випадає з параметрів Нормального розподілу.


17

Ще одна причина (на додаток до відмінних вище) походить від самого Фішера, який показав, що стандартне відхилення є "ефективнішим", ніж абсолютне відхилення. Тут ефективність стосується того, наскільки статистика буде коливатися у вартості для різних вибірок у популяції. Якщо ваша популяція нормально розподілена, стандартне відхилення різних вибірок від цієї сукупності в середньому буде, як правило, давати вам значення, які приблизно подібні один одному, тоді як абсолютне відхилення дасть вам цифри, які поширюються трохи більше. Зараз, очевидно, це в ідеальних обставинах, але ця причина переконала багато людей (разом з тим, щоб математика була чистішою), тому більшість людей працювали зі стандартними відхиленнями.


6
Ваш аргумент залежить від нормально розповсюджених даних. Якщо припустити, що населення має "подвійне експоненціальне" розподіл, то абсолютне відхилення є більш ефективним (адже це достатня статистика для шкали)
ймовірністьлогічного

7
Так, як я зазначив, "якщо ваше населення нормально розподілене".
Ерік Су

Окрім припущення нормального розподілу, доказ Фішера передбачає вимірювання без помилок. При невеликих помилках, таких як 1%, ситуація перевертається і середнє абсолютне відхилення є більш ефективним, ніж стандартне відхилення
juanrga

14

Просто, щоб люди знали, є питання про переповнення математики на ту саму тему.

Чому-це-так-круто-до-квадрат-цифри-в термінах-пошуку-стандарт-відхилення

Повідомлення відбирає те, що використання квадратного кореня дисперсії призводить до простішої математики. Аналогічну відповідь дають Річ і Рід вище.


3
"Легша математика" не є істотною вимогою, коли ми хочемо, щоб наші формули та значення більш правдиво відображали даний набір даних. Комп'ютери так чи інакше виконують важку роботу.
Dan W

Визначення pi як 3.14 полегшує математику, але це не робить його правильним.
Джеймс

13

Варіанти адитивні: для незалежних випадкових величин , var ( X 1 + + X n ) = var ( X 1 ) + + var ( X n ) .X1,,Xn

var(X1++Xn)=var(X1)++var(Xn).

Зверніть увагу, що це робить можливим: скажіть, що я кидаю чесну монету 900 разів. Яка ймовірність того, що кількість головок, які я отримую, становить від 440 до 455 включно? Просто знайдіть очікувану кількість голів ( ) та дисперсію кількості голів ( 225 = 15 2 ), а потім знайдіть ймовірність при нормальному (або гауссовому) розподілі з очікуванням450225=152 та стандартному відхиленні 15 між 439,5 і 455,5 . Авраам де Моївр це зробив з монетними кидками у 18 столітті, тим самим вперше показавши, що крива дзвіночка чогось варта.45015439.5455.5


Чи середні абсолютні відхилення не є адитивними так само, як дисперсії?
russellpierce

6
Ні, вони не.
Майкл Харді

10

Я думаю, що контраст між використанням абсолютних відхилень та відхилень у квадраті стає чіткішим, коли ви виходите за межі однієї змінної та думаєте про лінійну регресію. Є приємна дискусія на веб-сайті http://en.wikipedia.org/wiki/Least_absolute_deviations , зокрема розділ "Контрастні найменші квадрати з найменшими абсолютними відхиленнями", який посилається на деякі вправи для студентів із акуратним набором аплетів на http: // www .math.wpi.edu / Course_Materials / SAS / lablets / 7.3 / 73_choices.html .

Підводячи підсумок, найменші абсолютні відхилення є більш стійкими для людей, що випадають, ніж звичайні найменші квадрати, але вони можуть бути нестабільними (невелика зміна навіть однієї дати може призвести до великих змін у встановленому рядку) і не завжди має унікальне рішення - це може бути цілий ряд прилаштованих ліній. Крім того, найменші абсолютні відхилення вимагають ітеративних методів, тоді як звичайні найменші квадрати мають просте рішення закритої форми, хоча це вже не така велика справа, як це було, звичайно, за часів Гаусса та Легендра.


аргумент "унікального рішення" є досить слабким, він дійсно означає, що існує більше одного значення, добре підтримуваного даними. Крім того, покарання таких коефіцієнтів, як L2, також вирішить проблему унікальності та проблему стабільності.
ймовірністьлогічний

10

Причин багато; Мабуть, головне в тому, що він добре працює як параметр нормального розподілу.


4
Я згоден. Стандартне відхилення - це правильний спосіб вимірювання дисперсії, якщо припустити нормальний розподіл. І багато розповсюдження та реальних даних - це приблизно нормальне явище.
Łukasz Lew

2
Я не думаю, що вам слід сказати "природний параметр": природні параметри нормального розподілу - це середній і середній час точності. ( en.wikipedia.org/wiki/Natural_parameter )
Ніл G

1
@NeilG Добрий момент; Я думав про "випадковий" сенс тут. Я подумаю про якесь краще слово.

8

Багато в чому використання стандартного відхилення для узагальнення дисперсії приходить до висновку. Можна сказати, що SD неявно передбачає симетричний розподіл через однакове трактування відстані нижче середнього, ніж відстань вище середнього. СД напрочуд важко інтерпретувати нестатистам. Можна стверджувати, що середня різниця Джині має ширше застосування і є значно більш зрозумілою. Це не вимагає заявляти про свій вибір міри центральної тенденції, як це використовується в середньому. Середня різниця Джині - це середня абсолютна різниця між будь-якими двома різними спостереженнями. Окрім того, що він є надійним і легким для інтерпретації, він може бути 0,98 таким же ефективним, як і SD, якщо розподіл був насправді гауссовим.


2
Просто на додаток до пропозиції @ Франка щодо Джині, тут є приємний документ: projecteuclid.org/download/pdf_1/euclid.ss/1028905831 Він передбачає різні заходи розповсюдження, а також дає інформативну історичну перспективу.
Томас Шпідел

1
Мені подобаються ці ідеї, але є менш відоме паралельне визначення дисперсії (і, отже, SD), яке не посилається на засоби як на параметри розташування. Варіантність - це половина середнього квадрату над усіма попарними різницями між значеннями, подібно до того, як середня різниця Джині заснована на абсолютних значеннях всі попарної різниці.
Нік Кокс

7

Оцінка стандартного відхилення розподілу вимагає вибору відстані.
Можна використовувати будь-яку з наступних відстаней:

dn((X)i=1,,I,μ)=(|Xμ|n)1/n

Зазвичай ми використовуємо природну евклідову відстань ( n=2n=1
Обидва є хорошими кандидатами, але вони різні.

n=3

Я не впевнений, що вам сподобається моя відповідь, моя думка всупереч іншим полягає в тому, щоб не демонструвати, що n=2


6

Це залежить від того, про що ви говорите, коли ви говорите "поширення даних". Для мене це може означати дві речі:

  1. Ширина розподілу вибірки
  2. Точність заданої оцінки

E(|Xμ|)E(X2)E(|X|) для більшості дистрибутивів.

DIθ

p(θDI)=exp(h(θ))exp(h(t))dth(θ)log[p(θI)p(DθI)]

tθθmax

h(θ)h(θmax)+(θmaxθ)h(θmax)+12(θmaxθ)2h(θmax)

θmaxh(θmax)=0

h(θ)h(θmax)+12(θmaxθ)2h(θmax)

Якщо ми підключимо це наближення, отримаємо:

p(θDI)exp(h(θmax)+12(θmaxθ)2h(θmax))exp(h(θmax)+12(θmaxt)2h(θmax))dt

=exp(12(θmaxθ)2h(θmax))exp(12(θmaxt)2h(θmax))dt

E(θDI)θmax

V(θDI)[h(θmax)]1

h(θmax)θh(θ)jk=h(θ)θjθk

p(θI)=1θθmax

p(θmaxθ)N(θ,[h(θmax)]1)
(дивіться, чи можете ви здогадатися, якій парадигмі я віддаю перевагу: P). Отже, так чи інакше, в оцінці параметрів стандартне відхилення є важливою теоретичною мірою поширення.

6

"Чому квадратна різниця" замість "беручи абсолютне значення"? Щоб відповісти дуже точно, є література, яка наводить причини, за якими вона була прийнята, і те, чому більшість з цих причин не є справедливим. "Чи не можемо ми просто взяти абсолютне значення ...?". Мені відомо література, в якій відповідь "так", це робиться, і це робиться, вважається, вигідним.

Автор Горард стверджує, що спочатку використання квадратів було раніше прийнято з простоти обчислення, але, що ці первісні причини більше не мають значення. Горард заявляє, по-друге, що OLS був прийнятий тому, що Фішер встановив, що результати в зразках аналізів, які використовували OLS, мали менші відхилення, ніж ті, в яких використовувались абсолютні відмінності (грубо вказано). Таким чином, здається, що OLS може мати переваги в деяких ідеальних обставинах; однак, Горард зазначає, що існує певна консенсус (і він стверджує, що Фішер погодився), що в реальних умовах (недосконале вимірювання спостережень, нерівномірне розподіл, дослідження населення без висновку з вибірки) використання квадратів гірше, ніж абсолютні відмінності.

Відповідь Горарда на ваше запитання "Чи не можемо ми просто взяти абсолютне значення різниці замість цього і отримати очікуване значення (середнє значення)?" так. Ще одна перевага полягає в тому, що використання відмінностей виробляє заходи (міри помилок і варіацій), які пов'язані з тим, як ми переживаємо ці ідеї в житті. Горард каже, що уявіть собі людей, які рівномірно розподіляють рахунок за ресторан, і деякі можуть інтуїтивно помітити, що цей метод несправедливий. Ніхто там не виправить помилки; різниці - справа.

Нарешті, використовуючи абсолютні відмінності, він зазначає, що кожне спостереження ставиться однаково, тоді як, протиставляючи різницю різниць, спостереження прогнозуються набагато більшою вагою, ніж спостереження, добре прогнозовані, що наче дозволяє певні спостереження включати в дослідження кілька разів. Підсумовуючи, його загальна мета полягає в тому, що сьогодні існує не так багато виграшних причин для використання квадратів, і, навпаки, використання абсолютних відмінностей має переваги.

Список літератури:


1
Дякую @Jen, це нагадує мені історію клавіатури QWERTY. Гей, як це забирає стільки часу, щоб набрати QWERTY?
toto_tico

5

Тому що квадрати можуть дозволити використання багатьох інших математичних операцій або функцій легше, ніж абсолютні значення.

Приклад: квадрати можуть бути інтегровані, диференційовані, з легкістю можна використовувати тригонометричні, логарифмічні та інші функції.


2
Цікаво, чи є тут самореалізація. Отримуємо
ймовірністьлогічний

5

При додаванні випадкових змінних додаються їх відхилення для всіх розподілів. Варіантність (і, отже, стандартне відхилення) є корисним показником майже для всіх розподілів і жодним чином не обмежується гауссовими (також «нормальними») розподілами. Це сприятливо використовувати його як міру помилки. Відсутність унікальності є серйозною проблемою з абсолютними відмінностями, оскільки часто існує нескінченна кількість «рівних примірників», але, очевидно, «той, що знаходиться посередині», найбільш реально сприятливий. Крім того, навіть у сучасних комп’ютерах важлива обчислювальна ефективність. Я працюю з великими наборами даних, і час процесора важливий. Однак не існує єдиної абсолютної "найкращої" міри залишків, на що вказували деякі попередні відповіді. Різні обставини іноді вимагають різних заходів.


2
Я не переконаний, що відхилення дуже корисні для асиметричного розподілу.
Френк Харрелл

А як щодо пари "напівдисперсій", одна вгору, одна вниз?
kjetil b halvorsen

3

Природно, ви можете описати дисперсію розподілу будь-яким змістом (абсолютне відхилення, квантили тощо).

Один приємний факт полягає в тому, що дисперсія є другим центральним моментом, і кожен розподіл унікально описується своїми моментами, якщо вони існують. Ще один приємний факт полягає в тому, що дисперсія набагато математичніше простежується, ніж будь-яка порівнянна метрика. Інший факт полягає в тому, що дисперсія є одним із двох параметрів нормального розподілу для звичайної параметризації, а нормальний розподіл має лише 2 ненульові центральні моменти, які є цими двома самими параметрами. Навіть для ненормативних розподілів може бути корисно думати в нормальних рамках.

Як я бачу, причина стандартного відхилення існує як така в тому, що в додатках регулярно з'являється квадратний корінь дисперсії (наприклад, для стандартизації випадкової змінної), що вимагало для цього назви.


1
Якщо я пригадую правильно, чи не нормальний розподіл журналу не визначається однозначно його моментами.
ймовірністьлогічний

1
@probabilityislogic, дійсно, це правда, див. en.wikipedia.org/wiki/Log-normal_distribution у розділі "Характерна функція та функція генерування моментів".
kjetil b halvorsen

1

Інший і, можливо, більш інтуїтивний підхід - це коли ви думаєте про лінійну регресію проти середньої регресії.

Припустимо, наша модель така Е(у|х)=хβ. Тоді ми знаходимо b, мінімізуючи очікуваний залишок у квадраті,β=аргхвбЕ(у-хб)2.

Якщо замість цього наша модель є медіаною(у|х)=хβ, то ми знаходимо наші параметри, мінімізуючи абсолютні залишки,β=аргхвбЕ|у-хб|.

Іншими словами, використовувати абсолютну або квадратичну помилку, залежить від того, чи потрібно моделювати очікуване значення або середнє значення.

Якщо розподіл, наприклад, демонструє перекошену гетероседастичність, то велика різниця в тому, як нахил очікуваного значення у зміни протягом хдо того, як нахил відповідає середнім значенняму.

У Коенкера та Халлока є приємний твір про квантильну регресію, де середній регрес - особливий випадок: http://master272.com/finance/QR/QRJEP.pdf .


0

Моя здогадка така: Більшість популяцій (розподілів), як правило, збираються навколо середнього значення. Чим далі значення є від середнього, тим рідше воно. Для того, щоб адекватно виразити, наскільки значення "поза лінією", необхідно враховувати як його відстань від середньої, так і його (звичайно кажучи) рідкість зустрічальності. Вирівнювання різниці від середнього робить це порівняно зі значеннями, які мають менші відхилення. Після того, як всі дисперсії будуть усереднені, тоді добре взяти квадратний корінь, який повертає одиниці до їх початкових розмірів.


2
Це не пояснює, чому ви не могли просто взяти абсолютне значення різниці. Це здається концептуально простішим для більшості статистичних даних 101 студента, і це "враховувало б як відстань від середньої, так і її (звичайно кажучи) рідкісність".
gung

Я думаю, що абсолютна величина різниці виражала б лише різницю від середньої величини і не враховувала б той факт, що великі різниці вдвічі руйнівні до нормального розподілу.
Самуель Беррі

2
Чому "подвійно руйнівний" важливий, а не, скажімо, "потрійний руйнівний" або "чотиривірний руйнівний"? Схоже, ця відповідь просто замінює оригінальне запитання еквівалентним запитанням.
whuber

0

Квадратура посилює більші відхилення.

Якщо у вашій вибірці є значення, що знаходяться у всьому діаграмі, тоді для досягнення 68,2% у межах першого стандартного відхилення, ваше стандартне відхилення повинно бути трохи ширшим. Якщо ваші дані мають тенденцію до падіння середнього значення, то σ може бути жорсткішим.

Деякі кажуть, що це спростити обчислення. Використання позитивного кореня квадрата вирішило б це, щоб аргумент не плавав.

|х|=х2

Тож якби алгебраїчна простота була метою, то це виглядало б так:

σ=Е[(х-мк)2] що дає ті самі результати, що і Е[|х-мк|].

Очевидно, що квадрати це також має наслідком посилення зовнішніх помилок (так!).


Виходячи з прапора, який я щойно обробив, я підозрюю, що поточно не зрозумів, як ця відповідь відповідає на питання. Я вважаю, що я бачу зв’язок (але ви все-таки можете поправити деякі зміни, щоб інші читачі оцінили ваші бали). Хоча ваш перший абзац вражає мене як певний круговий аргумент: значення 68,2% походить від властивостей стандартного відхилення, тож як виклик цього числа допомагає виправдати використання SD замість якогось іншогоLp норма відхилень від середньої як спосіб кількісної оцінки поширення розподілу?
whuber

Перший абзац став причиною мого поступу.
Олексій

3
@Preston Thayne: Оскільки стандартне відхилення не є очікуваним значенням sqrt((x-mu)^2), ваша формула вводить в оману. Крім того, тільки те, що квадратування призводить до посилення більших відхилень, не означає, що це є причиною переваги дисперсії над MAD . Якщо що-небудь, це нейтральна властивість, оскільки часто ми хочемо чогось більш міцного, як MAD . Нарешті, те, що дисперсія є більш математично простежуваною, ніж MAD, є набагато глибшою математичною проблемою, ніж ви сказали в цій посаді.
Steve S

0

Чому квадратна різниця замість того, щоб приймати абсолютне значення в стандартному відхиленні?

Розподіляємо різницю x на середню, оскільки евклідова відстань, пропорційна квадратному кореню ступенів свободи (кількість x, у мірі чисельності), є найкращим показником дисперсії.

Розрахунок відстані

Яка відстань від точки 0 до точки 5?

  • 5-0=5,
  • |0-5|=5, і
  • 52=5

Гаразд, це банально, тому що це єдиний вимір.

Як щодо відстані точки до точки 0, 0 до точки 3, 4?

Якщо ми можемо одночасно переходити лише в 1 вимір (наприклад, у міські квартали), тоді ми просто додаємо цифри. (Це іноді відоме як відстань на Манхеттені).

Але що робити в двох вимірах одночасно? Потім (за теоремою Піфагора, яку ми всі вивчали в середній школі), ми квадратуємо відстань у кожному вимірі, підсумовуємо квадрати, а потім беремо квадратний корінь, щоб знайти відстань від початку від точки.

32+42=25=5

Як щодо відстані від точки в 0, 0, 0 до точки 1, 2, 2?

Це просто

12+22+22=9=3

оскільки відстань для перших двох x-х утворює ногу для обчислення загальної відстані з кінцевим x.

х12+х222+х32=х12+х22+х32

Ми можемо продовжувати розширювати правило розподілу відстані кожного виміру, це узагальнюється до того, що ми називаємо евклідовою дистанцією, для ортогональних вимірювань у гіпервимірному просторі, наприклад:

гiстанcе=i=1нхi2

і тому сума ортогональних квадратів - це відстань у квадраті:

гiстанcе2=i=1нхi2

Що робить ортогональне вимірювання (або під прямим кутом) іншого? Умова полягає в тому, що між двома вимірюваннями немає взаємозв'язку. Ми хотіли б, щоб ці вимірювання були незалежними та індивідуально розподіленими ( iid ).

Варіантність

Тепер пригадайте формулу дисперсії населення (від якої ми отримаємо стандартне відхилення):

σ2=i=1н(хi-мк)2н

Якщо ми вже зосереджували дані на 0, віднімаючи середнє значення, ми маємо:

σ2=i=1н(хi)2н

Отже, ми бачимо, що дисперсія - це просто відстань у квадраті, поділене на кількість ступенів свободи (кількість вимірів, на які змінні можуть змінюватися). Це також середній внесок угiстанcе2за вимірювання. "Середня квадратична дисперсія" також була б відповідним терміном.

Стандартне відхилення

Тоді маємо стандартне відхилення, яке є просто квадратним коренем дисперсії:

σ=i=1н(хi-мк)2н

Що еквівалентно відстані , поділеному на квадратний корінь ступенів свободи:

σ=i=1н(хi)2н

Середнє абсолютне відхилення

Середнє абсолютне відхилення (MAD) - це міра дисперсії, яка використовує відстань Манхеттена, або сума абсолютних значень відмінностей від середнього.

МАD=i=1н|хi-мк|н

Знову ж таки, припускаючи, що дані центрировані (середнє віднімання), відстань на Манхеттені ділиться на кількість вимірювань:

МАD=i=1н|хi|н

Обговорення

  • Середнє абсолютне відхилення становить приблизно .8 разів ( фактично2/π) розмір стандартного відхилення для нормально розподіленого набору даних.
  • Незалежно від розподілу, середнє абсолютне відхилення менше або дорівнює стандартному відхиленню. MAD занижує розсіювання набору даних із екстремальними значеннями щодо стандартного відхилення.
  • Середнє абсолютне відхилення є більш надійним для людей, що втрачають повсякденне життя (тобто, люди, що втрачають повсякденність, не мають настільки сильного впливу на статистику, як на стандартне відхилення.
  • Геометрично кажучи, якщо вимірювання не є ортогональними один до одного (наприклад, якщо вони були позитивно корельованими, середнє абсолютне відхилення було б кращою описовою статистикою, ніж стандартне відхилення, яке спирається на евклідову відстань (хоча це зазвичай вважається нормальним) ).

Ця таблиця відображає вищезазначену інформацію більш стисло:

МАDσсizеσМАDсizе,N.8×σ1,25×МАDоутлiеrсrобустiнfлуенcегнот i.i.г.rобусток

Коментарі:

Чи є у вас посилання на "середнє абсолютне відхилення приблизно в .8 разів перевищує розмір стандартного відхилення для нормально розподіленого набору даних"? Моделювання, які я виконую, показують, що це неправильно.

Ось 10 моделювання одного мільйона зразків із стандартного нормального розподілу:

>>> from numpy.random import standard_normal
>>> from numpy import mean, absolute
>>> for _ in range(10):
...     array = standard_normal(1_000_000)
...     print(numpy.std(array), mean(absolute(array - mean(array))))
... 
0.9999303226807994 0.7980634269273035
1.001126461808081 0.7985832977798981
0.9994247275533893 0.7980171649802613
0.9994142105335478 0.7972367136320848
1.0001188211817726 0.798021564315937
1.000442654481297 0.7981845236910842
1.0001537518728232 0.7975554993742403
1.0002838369191982 0.798143108250063
0.9999060114455384 0.797895284109523
1.0004871065680165 0.798726062813422

Висновок

Ми вважаємо за краще квадратичні різниці при обчисленні міри дисперсії, оскільки ми можемо використовувати евклідову відстань, що дає нам кращу описову статистику дисперсії. Коли є більш відносні екстремальні величини, евклідова відстань враховує це в статистиці, тоді як відстань на Манхеттені дає кожному виміру рівну вагу.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.