Середнє значення мінімізує помилку у квадраті (або норму L2, див. Тут або тут ), тому природним вибором для відхилення для вимірювання відстані від середнього є використання помилки у квадраті (див. Тут про те, чому ми її квадруємо). З іншого боку, медіана мінімізує абсолютну помилку (норма L1), тобто це значення, яке знаходиться в "середині" ваших даних, тому абсолютна відстань від медіани (так зване середнє абсолютне відхилення або MAD), здається, є краще вимірювати ступінь мінливості навколо медіани. Детальніше про ці відносини ви можете прочитати в цій темі .
Якщо говорити коротко, то відмінність відрізняється від MAD тим, як вони визначають центральну точку ваших даних, і це впливає на те, як ми вимірюємо зміни точок даних навколо них. Злучення значень змушує аутлієрів мати більший вплив на центральну точку (середню), тоді як у випадку медіани всі точки мають однаковий вплив на неї, тому абсолютна відстань здається більш доцільною.
Це можна показати також простим моделюванням. Якщо порівнювати значення квадратних відстаней від середньої та медіани, то загальна відстань у квадраті майже завжди менша від середньої, ніж від медіани. З іншого боку, сумарна абсолютна відстань менша від середньої, а потім від середньої. Код R для проведення моделювання розміщений нижче.
sqtest <- function(x) sum((x-mean(x))^2) < sum((x-median(x))^2)
abstest <- function(x) sum(abs(x-mean(x))) > sum(abs(x-median(x)))
mean(replicate(1000, sqtest(rnorm(1000))))
mean(replicate(1000, abstest(rnorm(1000))))
mean(replicate(1000, sqtest(rexp(1000))))
mean(replicate(1000, abstest(rexp(1000))))
mean(replicate(1000, sqtest(runif(1000))))
mean(replicate(1000, abstest(runif(1000))))
У разі використання медіани замість середнього для оцінки такої "дисперсії" це призведе до більш високих оцінок, ніж при використанні середнього, як це робиться традиційно.
До речі, співвідношення норм L1 та L2 можна розглядати і в байєсівському контексті, як у цій нитці .