Середній SD або Median MAD для узагальнення сильно перекошеної змінної?


11

Я працюю над сильно перекошеними даними, тому я використовую медіану замість середнього, щоб узагальнити центральну тенденцію. Я хотів би мати міру дисперсності. Хоча я часто бачу людей, які повідомляють про середнє стандартне відхилення± або медіану четвертинки,± щоб узагальнити центральну тенденцію, чи нормально повідомляти про середню середню абсолютну дисперсію (MAD)± ? Чи можливі проблеми з таким підходом?

Я вважаю цей підхід більш компактним та інтуїтивним, ніж звітування про нижній та верхній квартири, особливо у великих таблицях, повних цифр.


3
Я думаю, середній, середній, нижній та верхній квартілі спільно описали б дані краще. Ви можете знайти деякі інші описові статистичні дані тут .

1
Я хочу бути максимально стислим: чи нормальна середня + 2 чверті?
Мулоне

4
MAD - це чудова статистика для вираження дисперсії партії даних - вона стійкіша до людей, що втрачають чужість, навіть ніж міжквартильний діапазон. Але ви можете подумати про те, що насправді означатиме медіана MAD та як ваша аудиторія повинна інтерпретувати це. Він не користується тими ж асимптотичними чи чебейшевськими нерівними властивостями середнього SD. Можливо, саме тому такі вирази рідко, якщо взагалі, використовуються. ±±±
whuber

1
Я завжди думав, що MAD означає середнє абсолютне відхилення аналога mse, яке означає середню помилку квадрата. це середнє значення абсолютних відхилень від середньої, а не середньої. Я маю рацію чи їду MAD?
Майкл Р. Черник

2
картинка - тисяча слів, якщо можливо, показ гістограми дуже потужний.
bdeonovic

Відповіді:


7

Я не думаю, що медіана mad в цілому підходить. ±

Ви можете легко створити розподіли, де 50% даних є частково нижчими від медіани, а 50% даних розкинуто набагато більше, ніж медіана - наприклад (4.9,4.9,4,9,4,9,5,1000000,1000000,100000000 , 1000000). Позначення 5 0,10, начебто, підказують, що навколо є якась маса (медіана + божевільна ~ = 5.10), і це просто не завжди так, і ви не знаєте, що велика маса понад 1000000.±

Квартілі / кванти дають набагато краще уявлення про розподіл за вартістю додаткового числа - (4.9,5.0,1000000.0). Я сумніваюсь, що цілком випадкові випадки, що перекос - це третій момент, і що мені здається, потрібно три числа / розміри для інтуїтивної візуалізації косого розподілу.

Однак, в цьому немає нічого поганого - я просто сперечаюся тут з інтуїцією та читальністю. Якщо ви використовуєте це для себе чи своєї команди, з глузду з’їдемо. Але я думаю, що це бентежить широку аудиторію.


2
(+1) Я хотів би додати, що визначення косості з точки зору третього моменту зараз не є найбільш прийнятим, оскільки воно може застосовуватися лише для розповсюджень із легкими хвостами. Більш сучасні визначення косоокості базуються на квантуваннях, деякі з них можна знайти тут .

1
@amoeba Це? Сторінка Вікіпедії для MAD визначає її як медіану (| Xi - медіану (X) |)), що становить 0,1 з наведеними даними.
Upper_Case

@Upper_Case Дякую Я помилився (забув про 5-5 = 0 термін). Я видалю свій коментар вище, щоб не бентежити майбутніх читачів!
амеба

4

Використання MAD означає припущення, що базовий розподіл симетричний (відхилення над медіаною та нижче медіани розглядаються однаково). Якщо у вас перекошені дані, це явно неправильно: це призведе до завищення справжньої змінності ваших даних.

На щастя, ви можете вибрати одну з декількох альтернатив божевільних, які однаково надійні, майже такі ж легкі в обчисленні і які не припускають симетричності.

Погляньте на Rousseeuw and Croux 1992 . Ці поняття добре пояснюються тут і реалізуються тут . Ці два оцінювачі є членами так званого класу U-статистики, для якого існує добре розроблена теорія.


1

"У цій роботі вивчається більш точний показник асиметрії. Зокрема, пропонується використання лівої та правої дисперсії та введено індекс асиметрії на їх основі. Кілька прикладів демонструють її корисність. Питання про більш точну оцінку дисперсії дані про середнє значення з'являються у всіх несиметричних розподілах вірогідності. Коли розподіл населення несиметричний, середнє значення та дисперсія (або стандартне відхилення) набору даних не дають точного уявлення про розподіл даних, особливо форма та симетрія. Стверджується, що середня, запропонована ліва дисперсія (або ліве стандартне відхилення) та права відмінність (або праве стандартне відхилення) більш точно описують набір даних ".

Посилання


3
Ви цитували конспект статті та надали щось, що нагадує URL-адресу (я взяв на себе можливість виправити посилання). Це насправді не той тип відповідей, який ми шукаємо тут; Я рекомендую вам відредагувати свою відповідь та спробувати додати деякі власні коментарі щодо того, чому це посилання допомагає відповісти на питання. Відповідь буде значно покращена, якби ви пояснили, як цей індекс асиметрії пов'язаний із середньою середньою тенденцією та MAD.
MånsT
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.