Як інтерпретувати коефіцієнт варіації?


33

Я намагаюся зрозуміти коефіцієнт варіації . Коли я намагаюся застосувати його до наступних двох зразків даних, я не можу зрозуміти, як інтерпретувати результати.

Скажімо, зразок 1 дорівнює а зразок 2 - . Тут зразок 2 зразок 1 як ви бачите.10 , 15 , 17 , 22 , 21 , 27 = + 100,5,7,12,11,1710,15,17,22,21,27=+ 10

Обидва мають однакове стандартне відхилення але і .μ 2 = 18.67 μ 1 = 8.66667σ2=σ1=5.95539мк2=18.67мк1=8.66667

Тепер коефіцієнт варіації буде іншим. Для зразка 2 він буде меншим, ніж для зразка 1. Але як я інтерпретую цей результат? З точки зору дисперсії обидва однакові; тільки їх засоби різні. То в чому тут корисний коефіцієнт варіації? Це просто вводить мене в оману, або, можливо, я не в змозі інтерпретувати результати.σ/мк


Якщо замість того, щоб додати 10, ви додасте 1000, другий набір чисел буде відрізнятися значно менше, ніж середній, ніж перший набір. Коефіцієнт варіації - це вираження цього.

Дуже тісно пов'язані: stats.stackexchange.com/questions/113437/… .
whuber

Відповіді:


42

У таких прикладах, як ваш, коли дані відрізняються просто адитивно, тобто ми додаємо деяку константу до всього, тоді, як ви вказуєте, стандартне відхилення не змінюється, середнє значення змінюється точно на цю константу, і тому коефіцієнт варіації змінюється від σ / μ до σ / ( μ + k ) , що не є ні цікавим, ні корисним.kσ/μσ/(μ+k)

Цікава мультиплікативна зміна, і де коефіцієнт варіації має певну користь. Помноження всього на деяку постійну означає, що коефіцієнт варіації стає k σ / k μ , тобто залишається таким же, як і раніше. Зміна одиниць вимірювання є конкретним випадком, як у відповідях @Aksalal та @Macond.kkσ/kμ

Оскільки коефіцієнт варіації не є одиничним, так і він не розмірний, оскільки якими б одиницями чи розмірами не володіла базова змінна, вимивається поділом. Це робить коефіцієнт варіації мірою відносної мінливості , тому відносна мінливість довжин може порівнюватися з коефіцієнтом ваг тощо. Одне поле, де коефіцієнт варіації знайшов деяке описове використання, - це морфометрія розміру організму в біології.

В принципі і на практиці коефіцієнт варіації визначається лише повністю і зовсім корисний для змінних, які є повністю позитивними. Отже, детально ваш перший зразок зі значенням не є відповідним прикладом. Інший спосіб бачити це - зазначити, що якщо середнє значення коли-небудь нульове, коефіцієнт буде невизначеним, а якщо середнє коли-небудь негативне, то коефіцієнт буде негативним, припускаючи, що в останньому випадку стандартне відхилення є позитивним. Будь-який випадок зробив би цей захід марним як міра відносної мінливості, або взагалі для будь-якої іншої мети. 0

Еквівалентне твердження полягає в тому, що коефіцієнт варіації є цікавим і корисним лише в тому випадку, якщо логарифми визначені звичайним чином для всіх значень, і дійсно використання коефіцієнтів варіації рівнозначне перегляду мінливості логарифмів.

Хоча це має здатися неймовірним для читачів тут, я бачив кліматологічних і географічні публікації , в яких коефіцієнти варіації температур по Цельсію спантеличили наївні вчені, зауважимо , що коефіцієнти можуть вибухнути , як середні температури підібратися до C і стати негативним для середніх температур нижче замерзання. Ще більш дивно, я бачив припущення, що проблему вирішують замість цього за Фаренгейтом. І навпаки, коефіцієнт варіації часто правильно згадується як підсумкова міра, визначена тоді і лише тоді, коли шкали вимірювання кваліфікуються як масштаб відношення. Як це буває, коефіцієнт коливання не особливо корисний навіть для температур, виміряних у кельвіні, але з фізичних причин, а не з математичних чи статистичних.0

Як і у випадку з химерними прикладами з кліматології, які я не залишаю без уваги, оскільки автори не заслуговують ні на заслуги, ні на ганьбу, коефіцієнт варіації в деяких галузях не використовується. Іноді існує тенденція розглядати це як якусь магічну підсумкову міру, яка інкапсулює як середнє, так і стандартне відхилення. Це природно примітивне мислення, оскільки навіть тоді, коли співвідношення має сенс, середнє та стандартне відхилення від нього неможливо відновити.

У статистиці коефіцієнт варіації є досить природним параметром, якщо зміна слідує або за гаммою, або за логічною нормою, як це можна побачити, дивлячись на форму коефіцієнта варіації цих розподілів.

Хоча коефіцієнт варіації може бути корисним, у випадках, коли він застосовується, більш корисним кроком є ​​робота в логарифмічному масштабі, або шляхом логарифмічного перетворення, або за допомогою функції логарифмічного зв’язку в узагальненій лінійній моделі.

EDIT: Якщо всі значення негативні, то ми можемо розглядати цей знак як лише умову, яку можна ігнорувати. У цьому випадку рівнозначно фактично ідентичний близнюк коефіцієнта варіації.σ/|μ|


3
+1 Цей пост містить ключові моменти щодо логарифмів та позитивності, які повинні бути частиною будь-якого обговорення цього питання. "Історії війни" теж добре читають.
whuber

Я думав, ти не можеш обчислити CV, якщо змінна = 0?

1
@Jerf: продумайте. Якщо всі значення дорівнюють 0, то варіації немає і нічого обчислити немає. Немає проблеми лише тому, що деякі окремі значення дорівнюють 0, оскільки саме по собі це не виключає середнього значення 0. Однак ви завжди можете знайти приклади, коли деякі значення ще не дорівнюють нулю, а середнє - 0, наприклад -1, 0, 1 у у цьому випадку резюме невизначене. Але на практиці резюме найкорисніше, коли всі значення позитивні.
Нік Кокс

13

Уявіть, що я сказав: "У цьому містечку 1625.330 людей. Плюс-мінус п'ять". Вас би вразили мої точні демографічні знання.

Але якби я сказав: "У цьому будинку п’ять людей. Плюс або мінус п'ять". Ви б могли подумати, що я не маю поняття, скільки людей в будинку.

Те саме стандартне відхилення, сильно відрізняється від CV.


1
Це розумний спосіб пояснити, що таке СВ, але не ясно, наскільки це важливо для питання ОП.
gung - Відновіть Моніку

ОП запитує: "З точки зору дисперсії обидва однакові; лише їх засоби різні. Тож у чому тут користь коефіцієнта варіації?" Я думаю, що мій приклад ілюструє використання резюме як способу інтерпретації дисперсії.
Барт

1
Я не відповідав тобі. 2 явних питання ОП: "як я інтерпретую цей результат?", І "в чому тут коефіцієнт варіації?". Ви пояснюєте, що це добре, але розуміння того, що таке CoV, - це лише перший крок у відповіді на ці запитання, а не вся відповідь на ці запитання.
gung - Відновіть Моніку

4

Зазвичай ви використовуєте коефіцієнт варіації для змінної різних одиниць вимірювання або дуже різних масштабів. Ви можете вважати це співвідношенням шум / сигнал. Наприклад, ви можете порівнювати мінливість ваги та зросту учнів; мінливість ВВП США та Монако.

У вашому випадку коефіцієнт варіації може взагалі не мати особливого сенсу, оскільки значення не сильно відрізняються.



2

Насправді обидві статистичні дані можуть вводити в оману, якщо ви не знаєте і не розумієте своєї гіпотези та експериментуєте. Розглянемо цей жахливий приклад ... Прогулянка по двох висотних будівлях по канаті на відміну від ходьби по дошці. Скажімо, канат має діаметр 1 дюйм, тоді як дошка ширина 12 дюймів. 5 людей попросили пройтися по мотузці і 5 просили пройтися по дошці. Ми знайшли такі результати:

Середня відстань кожного кроку від краю (або сторони) мотузки (дюйми): 0,5, 0,2, 0,3, 0,6, 0,1

Середня відстань кожного кроку від краю (або сторони) дошки (дюймів): 5,5, 5,2, 5,3, 5,6, 5,1

Так само, як і у вашому прикладі, цей приклад призведе до рівних стандартних відхилень, оскільки значення для дошки просто на +5 різниці від значень для канату. Однак, якби я сказав вам, що стандартне відхилення для кожного експерименту було 0,2074, ви можете сказати добре, що два експерименти були рівнозначними. Однак, якби я сказав вам, що резюме для експерименту по канату було майже 61% порівняно з менш ніж 4% для дошки, ви, можливо, схильні запитати мене, скільки людей впало з мотузки.


0

CV - це відносна мінливість, яка використовується для порівняння змінності різних даних вибірки. Для прикладу ви, те саме стандартне відхилення / дисперсія з меншим середнім показником генеруватиме менший резюме. це вказує на те, що менший набір даних CV має меншу відносну мінливість. Припустимо, що ви заробляєте 10000 щомісяця, а я заробляю 100. (різне значення), ми всі, ймовірно, втрачаємо 100 щомісяця (віріація), я зашкоджую набагато більше, ніж ви, оскільки отримаю більшу резюме (cv = 1 порівняно з вашими 0,01), відносно більша варіативність.


1
Я мушу сказати, що це не додає нічого до існуючих відповідей.
Нік Кокс

0

в цьому випадку cv не є правильним статистичним інструментом для пояснення результату.

Залежно від характеру проведеного дослідження, отже, і мети, дослідник має конкретну гіпотезу або вказівку на доказ. Він або вона повинні розробити, виконати експеримент та проаналізувати дані, використовуючи найкращий і відповідний статистичний інструмент, тобто якщо експеримент повинен порівняти зростання групи 1 та групи 2, хоча cv обох є однаковими, але використовуючи T-тест або парні T- тест або Anova (більший експеримент), це може легко довести різницю між двома групами.

Тут головне - застосувати відповідний статистичний інструмент, щоб дати змістовне пояснення результату. Пам'ятайте, резюме - це лише один із варіантів описової статистики.

мої 2 копійки

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.