Чому коефіцієнт варіації недійсний при використанні даних із позитивними та негативними значеннями?


10

Я не можу знайти остаточну відповідь на своє запитання.

Мої дані складаються з декількох графіків із вимірюваними засобами, що змінюються від 0,27 до 0,57. У моєму випадку всі значення даних є позитивними, але саме вимірювання базується на співвідношенні значень відбиття, яке може становити від -1 до +1. Сюжети представляють значення NDVI , віддаленого від показника "продуктивності" рослинності.

Мій намір полягав у порівнянні мінливості значень на кожному графіку, але оскільки кожен графік має різне середнє значення, я вирішив використовувати CV для вимірювання відносної дисперсії значень NDVI на ділянку.

Як я розумію, отримання резюме цих сюжетів не коштує, тому що кожен сюжет може мати як позитивні, так і негативні значення. Чому в таких випадках недоцільно використовувати резюме? Якими можуть бути альтернативні життєздатності (тобто подібний тест відносної дисперсності, перетворення даних тощо)?


1
Яка мета порівняння змінності? Чому б вам просто не порівняти міри фактичної мінливості, як, наприклад, SD, MAD, діапазон чи інше, замість відносної міри, як резюме (що тут немає сенсу)?
whuber

Я використовую резюме для обліку відмінностей між засобами сюжетів. Це не має сенсу, оскільки значення знаходяться в межах від -1 до +1 у всіх графіках? тобто "фактична мінливість" була б більш показовою для відмінностей між сюжетами?
Пророк60091

2
CV - це відносна міра варіації, за визначенням. Це дає безглузді результати для будь-якої негативної середньої величини (ви не можете інтерпретувати негативну кількість дисперсії чи розповсюдження). Що стосується позитивних засобів, то, коли дана кількість спреду виглядає набагато більшою, коли середня величина мала. Коли цього потрібно, те, що ви робите, фактично еквівалентне порівнянню ваших даних в логарифмічній шкалі - і це не має сенсу, коли будь-який з даних може бути нульовим або негативним. Можливо, ваші дані можуть потребувати певного повторного вираження, щоб забезпечити хороші порівняння мінливості; це залежить від того, як вони генеруються.
whuber

+1 для пояснення. Хоча засоби моїх сюжетів позитивні, в кожному сюжеті можуть бути негативні значення. Виходячи з вищезазначеного та відповіді Петра нижче, це може здатися, що використання резюме не є гарантійним. Я розгляну потенційно змінити значення та / або використовувати заходи фактичної мінливості.
Prophet60091

1
Якщо ви можете розумно змінити масштаби даних, додавши константу, то це також означатиме, що резюме не є хорошою ідеєю. Це тому, що додавання константи змінить резюме, але не змінить варіацію.
Пітер Флом

Відповіді:


11

Подумайте, що таке резюме: відношення стандартного відхилення до середнього. Але якщо змінна може мати позитивні та негативні значення, середнє може бути дуже близьким до 0; таким чином, CV більше не робить те, що він повинен робити: Тобто дайте відчуття, наскільки великий sd порівняно із середнім значенням.

EDIT: У коментарі я сказав, що якщо ви можете розумно додати константу до змінної, CV не буде хорошим. Ось приклад:

set.seed(239920)
x <- rnorm(100, 10, 2)
min(x)#To check that none are negative
(CVX <- sd(x)/mean(x))
x2 <- x + 10
(CVX2 <- sd(x2)/mean(x2))

x2 просто x + 10. Я думаю, що зрозуміло, що вони однаково мінливі; але резюме різне.

Прикладом справжнього життя було б, якби температура x в градусах C, а x2 - температура в градусах K (хоча там можна стверджувати, що K - це правильна шкала, оскільки вона має визначений 0).


Дякую! Таким чином, стурбованість стосується того, щоб середні значення були біля нуля, а не обов'язково мати позитивні та негативні значення у ваших даних. Якщо так, то як близько до середнього нуля вважається "дуже близьким"? У моєму випадку я б сказав, що я далеко не в тому, щоб кошти були близько нуля. Чи є визначений спосіб визначення цього?
Prophet60091

Ні, стурбованість полягає в тому, що резюме більше не робить те, що він повинен робити, навіть якщо є лише 1 негативне значення. Якщо у вас є негативні значення, не використовуйте резюме. Крім того, якщо ваші значення перебувають у довільній шкалі, не використовуйте резюме.
Пітер Флом

Для повноти ви могли б дати трохи більше пояснень, чому використання довільної шкали недійсно застосовує резюме? Дякую!
Prophet60091

Справедливо кажучи, я думаю, що @whuber не виступав за порівняння трансформованих та неперетворених даних, але ви все одно вважаєте: масштабування вплине на резюме, коли можна подумати, що результати повинні залишатися тими ж. +1 для іграшкового коду R!
Prophet60091

Я не маю аргументів з коментарями @whuber щодо цієї теми.
Пітер Флом

0

Я думаю, що це як різні моделі варіації. Існують статистичні моделі, де резюме постійне. Якщо вони працюють, можна повідомити про резюме. Існують моделі, де стандартне відхилення є силовою функцією середнього. Існують моделі, де стандартне відхилення постійне. Як правило, модель з постійним CV - це краща початкова здогадка, ніж модель постійної SD, для змінних шкал співвідношення. Ви можете міркувати, чому це було б правдою, можливо, виходячи з поширеності мультиплікативних, а не адитивних взаємодій.

Моделювання з постійним CV часто пов'язане з логарифмічною трансформацією. (Важливим винятком є ​​негативна відповідь, яка іноді дорівнює нулю.) Є кілька способів поглянути на це. По-перше, якщо CV є постійним, то журнали - це звичайна трансформація, що стабілізує дисперсію. Крім того, якщо ваша модель помилок є ненормальною з постійною SD в масштабі журналу, то CV - це просто перетворення цієї SD. Резюме приблизно дорівнює SD-шкалі, коли обидва невеликі.

Два способи застосування статистики 101 методів, як стандартне відхилення, - це дані таким чином, як ви їх отримали, або (особливо, якщо це відношення шкали) до їх журналів. Ви найкраще спочатку здогадуєтесь, знаючи, що природа може бути досить складною і що подальше вивчення може бути в порядку. Візьміть до уваги, які люди раніше вважали результативними ваші дані.

Ось випадок, коли цей матеріал важливий. Концентрації хімічних речовин іноді підсумовуються з CV або моделюються в журнальній шкалі. Однак pH - концентрація в логарифмічному режимі.


3
Дякуємо за ваш внесок, і ласкаво просимо на наш сайт! Чи можете ви зрозуміти, як ваша відповідь стосується питання про обґрунтованість використання резюме взагалі для характеристики даних, які можуть мати негативні значення? Здається, ця ситуація не охоплюється жодним вашим зауваженням.
whuber
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.