Використання медіани для обчислення варіації


10

У мене є 1-D випадкова величина, яка надзвичайно перекошена. Для нормалізації цього розподілу я хочу використовувати медіану, а не середню. моє запитання таке: чи можу я обчислити дисперсію розподілу за допомогою медіани у формулі замість середнього?

тобто можу я замінити

Vаr(Х)=[(Хi-меан(Х))2]/н

з

Vаr(Х)=[(Хi-мегiан(Х))2]/н

Моє міркування цього полягає в тому, що оскільки дисперсія є показником поширення wrt центральної тенденції розподілу, це не повинно бути проблемою, але я прагну перевірити цю логіку.



1
Шляхом посереднього центрування змінних, а потім діленням на MAD (середнє абсолютне відхилення) можна створити середнє стандартизоване розподіл.
Майк Хантер

5
Ви можете це зробити! Але я вважаю, що справедливо називати це дуже нестандартним і припускати, що вам потрібна теорія та / або моделювання, щоб підкріпити це, а не лише вашою інтуїцією. Я підозрюю, що він буде менш стійким, ніж стандартний оцінювач. Наприклад, у звичайному випадку з косим правою медіаною медіана буде меншою за середню, тому найбільші відхилення у квадраті (від медіани) будуть, таким чином, ще більшими! Найважливішим моментом є те, що якщо дисперсія є дуже недостовірною, можливо, вам доведеться подумати про вимірювання спред зовсім інакше, ніж про різні версії дисперсії.
Нік Кокс

1
Ортогональна точка: чи "нормалізує" середній масштаб якимось чином, наприклад (значення -місцеположення) / масштаб, чи це означає наблизитись до нормальної (гауссова)?
Нік Кокс

1
Цей підхід за своєю суттю невідповідний, оскільки проблеми, які вирішуються заміною середнього на медіану, збільшуються за допомогою використання дисперсії замість надійного оцінювача спред.
whuber

Відповіді:


9

Середнє значення мінімізує помилку у квадраті (або норму L2, див. Тут або тут ), тому природним вибором для відхилення для вимірювання відстані від середнього є використання помилки у квадраті (див. Тут про те, чому ми її квадруємо). З іншого боку, медіана мінімізує абсолютну помилку (норма L1), тобто це значення, яке знаходиться в "середині" ваших даних, тому абсолютна відстань від медіани (так зване середнє абсолютне відхилення або MAD), здається, є краще вимірювати ступінь мінливості навколо медіани. Детальніше про ці відносини ви можете прочитати в цій темі .

Якщо говорити коротко, то відмінність відрізняється від MAD тим, як вони визначають центральну точку ваших даних, і це впливає на те, як ми вимірюємо зміни точок даних навколо них. Злучення значень змушує аутлієрів мати більший вплив на центральну точку (середню), тоді як у випадку медіани всі точки мають однаковий вплив на неї, тому абсолютна відстань здається більш доцільною.

Це можна показати також простим моделюванням. Якщо порівнювати значення квадратних відстаней від середньої та медіани, то загальна відстань у квадраті майже завжди менша від середньої, ніж від медіани. З іншого боку, сумарна абсолютна відстань менша від середньої, а потім від середньої. Код R для проведення моделювання розміщений нижче.

sqtest  <- function(x) sum((x-mean(x))^2)  < sum((x-median(x))^2)
abstest <- function(x) sum(abs(x-mean(x))) > sum(abs(x-median(x)))

mean(replicate(1000, sqtest(rnorm(1000))))
mean(replicate(1000, abstest(rnorm(1000))))

mean(replicate(1000, sqtest(rexp(1000))))
mean(replicate(1000, abstest(rexp(1000))))

mean(replicate(1000, sqtest(runif(1000))))
mean(replicate(1000, abstest(runif(1000))))

У разі використання медіани замість середнього для оцінки такої "дисперсії" це призведе до більш високих оцінок, ніж при використанні середнього, як це робиться традиційно.

До речі, співвідношення норм L1 та L2 можна розглядати і в байєсівському контексті, як у цій нитці .

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.