Надійний (непараметричний) захід, наприклад, коефіцієнт варіації - IQR / медіана чи альтернатива?


12

Для заданого набору даних розкид часто обчислюється або як стандартне відхилення або як IQR (міжквартильний діапазон).

Тоді як a standard deviationнормалізується (z-бали тощо) і тому може використовуватися для порівняння спредів між двома різними популяціями, це не стосується IQR, оскільки вибірки з двох різних сукупностей можуть мати значення у двох досить різних масштабах,

 e.g. 
 Pop A:  100, 67, 89, 75, 120, ...
 Pop B:  19, 22, 43, 8, 12, ...

Мені потрібно зробити надійний (непараметричний) захід, який я можу використовувати для порівняння варіацій у різних групах населення.

Вибір 1: IQR / Median- це було б аналогічно коефіцієнту варіації , тобто до .σμ

Вибір 2: Range / IQR

Питання: Який більш змістовний захід порівняння варіацій між популяціями? І якщо це Вибір 1, чи вибір 2 корисний для чогось / змістовного чи це принципово хибний захід?


Дякую за дуже корисну дискусію. Деякі корисні подальші спостереження - різні визначення квартілів і, отже, IQR (Джон), стандартне відхилення насправді не стандартизується (Harvey), а також QQ графіки як інструмент порівняння двох розподілів (Пітер). (+1 на всі три відповіді!)
Асад Ебрагім

Відповіді:


13

З цього питання випливає, що стандартне відхилення (SD) якось нормалізується, тому його можна використовувати для порівняння мінливості двох різних сукупностей. Не так. Як говорили Петро та Іоанн, ця нормалізація проводиться як при обчисленні коефіцієнта варіації (CV), який дорівнює SD / середньому. SD знаходиться в тих же одиницях, що і вихідні дані. Навпаки, резюме - це коефіцієнт без одиниць.

Ваш вибір 1 (IQR / Median) є аналогом резюме. Як і резюме, це має сенс лише тоді, коли дані є співвідношеннями даних. Це означає, що нуль дійсно дорівнює нулю. Вага нуля - це не вага. Довжина нуля - це не довжина. Як протилежний приклад, це не має сенсу для температури в C або F, оскільки температура нульових градусів (C або F) не означає, що немає температури. Просто перемикання між використанням шкали C або F дасть вам інше значення для резюме або для співвідношення IQR / медіана, що робить обидва ці співвідношення безглуздими.

Я погоджуюся з Петром та Іваном, що ваша друга ідея (Діапазон / IQR) не була б дуже надійною для людей, що нажили людей, тому, ймовірно, не буде корисною.


2
Гарві - спасибі - ти маєш рацію, SD взагалі не нормалізується ... Я плутав концепцію z-scoresстандартизації значень і нормалізації їх положення в межах розподілу з точки зору середнього та стандартного відхилення, з цією проблемою, яка - це можливість класифікувати групи продуктів у порядку їх змінності. Вибравши свою відповідь як правильну, тому що в той час як Петро та Іван були дуже корисними, ваш сповістив мене про концептуальну змішаність. Хороший момент, коли Вибір 1 має обмежене використання поблизу медіани 0. На щастя, в моїй проблемі мені не потрібно з цього приводу хвилюватися.
Асад Ебрагім

Я хотів би використати це в роботі. Чи є хороше місце, на яке посилається (книга / десь рецензована)?
Бен Болкер

15

Важливо усвідомлювати, що мінімум і максимум часто не дуже хороші статистичні дані для використання (тобто вони можуть сильно коливатися від вибірки до вибірки і не дотримуватися нормального розподілу, оскільки, скажімо, середнє може бути обумовлене теоремою про центральний межа) . Як результат, діапазон рідко є хорошим вибором для чогось іншого, ніж для зазначення діапазону цього точного зразка . Для простої непараметричної статистики, яка представляє мінливість, міжквартильний діапазон значно кращий. Однак, хоча я бачу аналогію між IQR / медіаною та коефіцієнтом варіації, я не думаю, що це, мабуть, найкращий варіант.

Ви можете заглянути в абсолютне відхилення медіани від медіани ( MADM ). Тобто: Я підозрюю, що кращою непараметричною аналогією коефіцієнт варіації буде MADM / медіана, а не IQR / медіана.

MADM=median(|ximedian(x)|)

1
Цікавий вибір MADM/median, по суті, середня різниця від середнього значення. Давайте назвемо цей вибір 3. Погодьтеся з вашою оцінкою щодо вибору 1, тому все вийшло, дякую. Коли ви пропонуєте «краще», які атрибути можна використати для порівняння вибору 2 з вибором 3, щоб побачити, що краще?
Асад Ебрагім

1
Атрибути, які ви використовуєте, залежатимуть від того, якими є цілі для показника. Однак я мав на увазі лише те, що це краща аналогія для CoV. Зверніть увагу, що 3-й квартал є медіаною ваших даних, що перевищують медіану, а 1-й q - медіаною даних нижче, тому IQR / 2 в перспективі буде дорівнює MADM (nb, вони не гарантуються рівними у даній вибірці). IQR буде різнитися і далі, від його справжнього значення в попсі, але я не впевнений, які, якщо такі є, наслідки, які б мали, і позиція. помилятися IQR / 2 має бути таким самим, як SE MADM.
gung - Відновіть Моніку

Бачу, дякую за роз’яснення. Хороший момент про серединну інтерпретацію Q3 та Q1. Я MADM/medianспробую поруч IQR/median. Побічне порівняння може бути цікавим. (+1 за цікаву пропозицію)
Асад Ебрагім

6

"Вибір 1" - це те, що ви хочете, якщо ви використовуєте непараметричні показники для спільної мети зменшення ефекту людей, що втрачають силу. Навіть якщо ви використовуєте його через перекос, який також має побічний ефект, як правило, у хвоста є екстремальні значення, це може бути переживцем. На ваш "Вибір 2" можуть сильно вплинути люди, що втратили чи інші екстремальні значення, в той час як компоненти вашого першого рівняння відносно міцні.

[Це буде трохи залежати від того, який тип IQR ви виберете (див. Довідку R на квантил).]


Ви маєте рацію, я мав би сказати, "це аналогічно визначенню коефіцієнта варіації ... (зафіксовано зараз у питанні)!
Асад Ебрагім

Дякую за коментар, залежний від того, який тип IQR ви виберете ... - Я не зрозумів, що існує стільки можливих визначень для квартілів / квантолів! Я використовую вбудовану quartile( )функцію Excel , а потім беру IQR := Q3 - Q1. Мої цифри походять із часових рядів щотижневих вимірювань протягом року. Вимірювання є промисловими показниками продуктивності, тому вони є постійним розподілом. Різне населення - це різні групи продуктів. У цій ситуації я не думаю, що різні визначення на практиці будуть сильно різними?
Асад Ебрагім

6

Я вважаю за краще не обчислювати такі показники, як CV, тому що я майже завжди має довільне походження для випадкової величини. Щодо вибору надійної міри дисперсії, важко перемогти середню різницю Джіні, яка є середнім значенням усіх можливих абсолютних значень різниці між двома спостереженнями. Для ефективного обчислення дивись, наприклад, R rmsпакет GiniMdфункції. За нормальності середня різниця Джині на 0,98 настільки ж ефективна, як і SD для оцінки дисперсії.


3

Як і @ Джон, я ніколи не чув про таке визначення коефіцієнта варіації. Я б не назвав це тим, що якщо я ним скористаюся, це збентежить людей.

"Що найкорисніше?" буде залежати від того, для чого ви хочете його використовувати. Безумовно, вибір 1 є більш надійним для людей, що пережили люди, якщо ви впевнені, що саме цього ви хочете. Але яка мета порівняння двох розподілів? Що ти намагаєшся зробити?

Однією з альтернатив є стандартизація обох заходів, а потім перегляд резюме.

Інший - сюжет QQ.

Є також багато інших.


Хороший момент - мав би сказати аналогічно коефіцієнту варіації (я зробив поправку).
Асад Ебрагім

Мої цифри походять із часових рядів щотижневих вимірювань протягом року. Вимірювання є промисловими показниками продуктивності, тому вони є постійним розподілом. Різне населення - це різні групи продуктів, і у мене є близько 50 груп продуктів. Те, що я намагаюся зробити, - це вміти порівнювати властиву мінливість між різними групами продуктів. Зокрема, я хочу мати можливість класифікувати групи продуктів у порядку зменшення.
Асад Ебрагім

Що ви маєте на увазі «стандартизуйте обидва заходи, а потім подивіться на підсумки»? Я думав, вибір 1 стандартизує їх ...!
Асад Ебрагім

2

У цій роботі представлені дві хороші надійні альтернативи для коефіцієнта варіації. Один - міжквартильний діапазон, поділений на медіану, тобто:

IQR / медіана = (Q3-Q1) / медіана

Інше - це середнє абсолютне відхилення, поділене на медіану, тобто:

MAD / медіана

Вони порівнюють їх і узагальнюють висновок, що другий є трохи менш змінним і, мабуть, кращим для більшості застосувань.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.