Чи може стандартне відхилення негативних даних перевищувати середнє?


15

У мене є трикутні 3D-сітки. Статистика для районів трикутника:

  • Мінімум 0,000
  • Макс 2341,141
  • Має на увазі 56.317
  • Std dev 98.720

Отже, чи означає щось особливо корисне щодо стандартного відхилення чи припускаєте, що в його обчисленні є помилки, коли цифри виходять, як описано вище? Території, безумовно, далеко не звичайні.

І як хтось згадував в одній зі своїх відповідей нижче, річ мене справді здивувала, що знадобилося лише одне СД від середнього значення, щоб цифри стали негативними і, таким чином, вийшли з легальної сфери.

Спасибі


4
У наборі даних {2,2,2,202} стандартне відхилення вибірки становить 100 а середнє значення 52 точне, близьке до того, що ви спостерігаєте.
whuber

5
На звичному (для деяких) прикладі середній результат того, що хтось грає в блекджек протягом однієї години, може бути від'ємним $ 25, але при стандартному відхиленні скажімо $ 100 (цифри для ілюстрації). Цей великий коефіцієнт варіації дозволяє комусь легше підманювати, думаючи, що вони кращі, ніж є насправді.
Майкл МакГоуан

Наступне питання є досить інформативним, теж: він ставить оцінки на SD набору (невід'ємні дані), з огляду на середню.
whuber

Відповіді:


9

Ніщо не говорить про те, що стандартне відхилення повинно бути менше або більше середнього. Враховуючи набір даних, ви можете зберігати середнє значення однаковим, але змінювати стандартне відхилення на довільну ступінь, додаючи / віднімаючи додатне число відповідним чином .

Використовуючи набір даних @ whuber із коментаря до питання: {2, 2, 2, 202}. Як зазначає @whuber: середнє значення - 52, а стандартне відхилення - 100.

Тепер порушуйте кожен елемент даних наступним чином: {22, 22, 22, 142}. Середнє значення все ще 52, але стандартне відхилення - 60.


1
Якщо ви додаєте кожен елемент, ви змінюєте параметр розташування , тобто середнє значення. Ви змінюєте дисперсію (тобто стандартне відхилення) шляхом множення на коефіцієнт масштабу (за умови, що середнє значення дорівнює нулю).
Дірк Еддельбюттель

@DirkEddelbuettel Ви маєте рацію. Я зафіксував відповідь і подав приклад для ясності.
varty

2
Я не слідую прикладу. Новий набір даних явно не виводиться з оригіналу шляхом "додавання або віднімання додатного числа" від кожного з вихідних значень.
whuber

3
Я не можу редагувати це, бо не знаю, що ти намагаєшся сказати. Якщо ви можете довільно додати окремі значення до кожного з номерів у наборі даних, ви просто змінюєте один набір з значень на зовсім інший набір n значень. Я не бачу, наскільки це стосується питання або навіть вашого вступного пункту. Я думаю, що хтось дозволить, що такі зміни можуть змінити середнє значення та SD, але це не говорить про те, чому SD набору негативних даних може бути будь-яким позитивним кратним його середньому. nn
whuber

2
Ви маєте рацію: цитоване твердження є моїм, і воно не відображається у вашій відповіді. (Однак це буває правильним і актуальним. :-) Один момент, який я намагаюся натрапити, - це те, що сама здатність змінити SD, зберігаючи середнє значення, не відповідає на питання. Скільки можна змінити SD (зберігаючи всі дані негативні)? Інший момент, який я намагався зробити, - це те, що ваш приклад не ілюструє загальний передбачуваний процес внесення таких змін до даних. Це робить його довільним, що не дуже допомагає.
whuber

9

Звичайно, це незалежні параметри. Ви можете встановити прості дослідження в R (або іншому інструменті, який ви бажаєте).

R> set.seed(42)     # fix RNG
R> x <- rnorm(1000) # one thousand N(0,1)
R> mean(x)          # and mean is near zero
[1] -0.0258244
R> sd(x)            # sd is near one
[1] 1.00252
R> sd(x * 100)      # scale to std.dev of 100
[1] 100.252
R> 

Аналогічно ти стандартизуєш дані, які ви шукаєте, віднімаючи середнє значення і діливши на стандартне відхилення.

Редагувати та слідуючи ідеї @ whuber, ось одна нескінченність наборів даних, що наближаються до ваших чотирьох вимірювань:

R> data <- c(0, 2341.141, rep(52, 545))
R> data.frame(min=min(data), max=max(data), sd=sd(data), mean=mean(data))
  min     max      sd    mean
1   0 2341.14 97.9059 56.0898
R> 

Я не впевнений, що розумію вашу думку. Вони не є абсолютно незалежними, оскільки можна змінити середнє значення, збуривши одну точку даних, і тим самим змінити стандартне відхилення. Я щось неправильно тлумачив?
varty

Зазначаючи, що області трикутника не можуть бути негативними (що підтверджується мінімальним значенням, наведеним у запитанні), можна сподіватися на приклад, що складається виключно з негативних чисел.
whuber

(+1) Повторіть редагування: спробуйте використати 536 реплікацій 52.15 :-).
whuber

Хороший один 536 повторень. Повинен був виконати двійковий пошук :)
Дірк Еддельбуеттель

@Dirk "це незалежні параметри", розглянемо випадок, коли - бернуї. дисперсія та середнє значення не є незалежними: v a r ( X ) = p ( 1 - p ) . Розглянемо випадкову величину 100 > Х > 0 , максимально можлива дисперсія ( 50 ) 2 Тепер , якщо ви змушуєте середнє рівним одиниці (тобто знизити , ніж 50 ) максимальна дисперсія не може бути більше , ніж 99 / 100 * ( 1 ) 2 +Xvar(X)=p(1p)100>X>0(50)250 . Є більше прикладів обмежених змінних у природі, ніж гауссів? 99/100(1)2+(1/100)992
Робін Жирард

7

Я не впевнений, чому @Andy здивований таким результатом, але я знаю, що він не один. Я також не впевнений, що нормальність даних пов'язана з тим, що sd вище середнього. Генерувати набір даних, який зазвичай розподіляється там, де це досить просто; Дійсно, стандартний нормальний має середнє значення 0, sd 1. Було б важко отримати нормально розподілений набір даних усіх позитивних значень з sd> mean; Дійсно, це не повинно бути можливим (але це залежить від розміру вибірки та того, який тест на нормальність ви використовуєте ... з дуже невеликим зразком, трапляються випадкові речі)

Однак, як тільки ви видалите умову про нормальність, як це зробив @Andy, немає жодної причини, чому sd повинен бути більшим чи меншим за середнє, навіть для всіх позитивних значень. Один з них зробить це. напр

x <- runif (100, 1, 200) x <- c (x, 2000)

дає середнє значення 113 і сд 198 (залежно від насіння, звичайно).

Але важливіше питання, чому це дивує людей.

Я не викладаю статистику, але мені цікаво, що щодо того, як навчають статистику, робить це поняття загальним.


Я ніколи не вивчав статистику, лише пару одиниць інженерної математики, і це було тридцять років тому. Інші люди на роботі, які, на мою думку, зрозуміли домен краще, говорили про представлення поганих даних за "кількістю std devs away from the medium". Отже, мова йде більше про те, "як часто згадується std dev", ніж про "навчений" :-)
Енді Дент

@Анді, що має велику кількість std від середнього, просто означає, що змінна не суттєво відрізняється від нуля. Тоді це залежить від контексту (чи було значення випадкової змінної), але в якому випадку ви можете їх видалити?
Робін Жирард

@Петер бачити мій коментар до Дірка, це може пояснити "сюрприз" у якомусь контексті. Насправді я певний час викладав статистику, і ніколи не бачив сюрпризу, про який ти говориш. У всякому разі, я віддаю перевагу студієві, який дивується всім, я майже впевнений, що це хороша гносеологічна позиція (краще, ніж непритомніти абсолютно не здивовано :)).
Робін Жирард

@AndyDent "погані" дані, для мене, означають дані, які неправильно записані. Дані, далекі від середнього значення, є переживаючими людьми. Наприклад, припустимо, що ви вимірюєте висоту людей. Якщо ви вимірюєте мене і записуєте мій зріст як 7'5 'замість 5'7, це погані дані. Якщо ви вимірюєте Яо Мін і записуєте його зріст як 7'5 ", це чужі дані, але не погані дані. Незалежно від того, що це дуже далеко від середнього значення (щось на зразок 6 сд)
Пітер Флом - Відновлення Моніки

@ Петер Флорн, У нашому випадку у нас є екслієри, яких ми хочемо позбутися, оскільки вони представляють трикутники, які спричинить алгоритмічні проблеми в обробці сітки. Вони можуть бути навіть «поганими даними» у вашому розумінні, якщо вони були створені несправними скануючими пристроями або конвертацією з інших форматів :-) Інші форми можуть мати віджимання, які за законом далекі від середнього, але не представляють проблеми. Однією з найцікавіших речей щодо цих даних є те, що у нас є "погані дані" на обох кінцях, але маленькі не далеко від середнього.
Енді Дент

6

Просто додавши загальну точку , що, з точки зору обчислення, і х 2 F ( х ) г х пов'язані нерівністю Єнсена , припускаючи , що існують обидва інтеграла, х 2 F ( х ) д х { x f ( x ) d x } 2

xf(x)dx
x2f(x)dx
Враховуючи цю загальну нерівність, ніщо не заважає дисперсії довільно збільшитися. Свідчіть розподілСтьюдентаз ν градусами свободи, X T ( ν , μ , σ ) і візьміть Y = | X | чий другий момент такий же, як другий момент X , E [ | X | 2 ] = ν
x2f(x)dx{xf(x)dx}2.
ν
XT(ν,μ,σ)
Y=|X|X колиν>2. Таким чином, вона переходить до нескінченності, колиνопускається до2, тоді як середнє значенняYзалишається кінцевим, покиν>1.
E[|X|2]=νν2σ2+μ2,
ν>2ν2Yν>1

1
Зверніть увагу на чітке обмеження негативних значень у питанні.
whuber

Приклад "Студент" легко перекладається на приклад розподілу абсолютної вартості студента-т ...
Сіань

1
Але це змінює середнє значення, звичайно :-). Питання стосується взаємозв'язку між СД та середнім (див. Його назву). Я не кажу, що ти помилився; Я просто (неявно) припускаю, що ваша відповідь міг би трохи попрацювати з цим питанням.
whuber

@whuber: добре, я редагував вище, щоб вважати абсолютне значення (я також отримав середнє значення абсолютного значення, але <a href=" ceremade.dauphine.fr/~xian/meanabs.pdf"> це досить непогано </ a> ...)
Сіань

3

Можливо, ОП дивується, що середнє значення - 1 SD - це від’ємне число (особливо там, де мінімум дорівнює 0).

Ось два приклади, які можуть уточнити.

Припустимо, у вас є клас з 20 першокласників, де 18 - 6 років, 1 - 5, а 1 - 7. Тепер додайте 49-річного вчителя. Середній вік - 8,0, тоді як стандартне відхилення - 9,402.

Ви можете подумати: один діапазон стандартних відхилень для цього класу становить від -1,402 до 17,402 років. Ви можете бути здивовані, що SD включає негативний вік, який видається необґрунтованим.

Вам не доведеться турбуватися про негативний вік (або тривимірні графіки, що розширюються менше, ніж мінімум 0,0). Інтуїтивно ви все ще маєте приблизно дві третини даних в межах 1 SD середнього. (У вас фактично є 95% даних у межах 2 SD середнього значення.)

Коли дані отримають ненормований розподіл, ви побачите напрочуд такі результати.

Другий приклад. У своїй книзі, обдуреній випадковістю , Нассім Талеб встановлює мислительний експеримент із зав'язаними очима лучником, що стріляє у стіну невиразної довжини. Стрілець може стріляти між +90 градусів і -90 градусів.

Раз у раз стрілець стрілятиме стрілою паралельно стіні, і вона ніколи не вдарить. Поміркуйте, наскільки стрілка пропускає ціль як розподіл чисел. Стандартне відхилення для цього сценарію було б невиразним.


Правило про 2/3 даних у межах 1 SD середнього значення є для звичайних даних. Але дані в класі явно ненормальні (навіть якщо вони проходять певний тест на нормальність через невеликий розмір вибірки). Приклад Талеба - жахливий. Це приклад поганої операціоналізації змінної. Взяте як є, і середня, і СД була б нескінченною. Але це дурниці. "Як далеко пропускає стріла" - для мене, це відстань. Стріла, як би вона не стріляла, десь приземлиться. Виміряйте відстань звідти до цілі. Більше нескінченності.
Пітер Флом - Відновити Моніку

1
Так, ОП був достатньо здивований, коли я побачив середнє значення - 1 SD пішов негативно, що я написав цілий новий набір одиничних тестів, використовуючи дані з Excel, щоб підтвердити хоча б мій алгоритм обчислення однакових значень. Тому що Excel просто повинен бути авторитетним джерелом, правда?
Енді Дент

@Peter Правило 2/3 (частина правила 68-95-99,7%) добре підходить для величезної кількості наборів даних, багато з них ненормальні і навіть для помірно перекошених. (Правило досить добре для симетричних датців.) Нескінченність SD і середнього значення не є "дурницею". Приклад Талеба - одна з небагатьох ситуацій, що не піддаються надуманню, коли розподіл Коші чітко регулює процес генерації даних. Нескінченність SD не випливає з можливості пропуску стіни, а з розподілу фактичних ударів.
whuber

1
@whuber Я знав ваш перший пункт, який є хорошим. Я не погоджуюся щодо вашого другого пункту щодо Талеба. Мені це здається ще одним надуманим прикладом.
Пітер Флом - Відновити Моніку

3

Випадкова величина гами Х з щільністю

fX(x)=βαΓ(α)xα1eβxI(0,)(x),
with α,β>0, is almost surely positive. Choose any mean m>0 and any standard deviation s>0. As long as they are positive, it does not matter if m>s or m<s. Putting α=m2/s2 and β=m/s2, the mean and standard deviation of X are E[X]=α/β=m and Var[X]=α/β2=s. With a big enough sample from the distribution of X, by the SLLN, the sample mean and sample standard deviation will be close to m and s. You can play with R to get a feeling about this. Here are examples with m>s and m<s.
> m <- 10
> s <- 1
> x <- rgamma(10000, shape = m^2/s^2, rate = m/s^2)
> mean(x)
[1] 10.01113
> sd(x)
[1] 1.002632

> m <- 1
> s <- 10
> x <- rgamma(10000, shape = m^2/s^2, rate = m/s^2)
> mean(x)
[1] 1.050675
> sd(x)
[1] 10.1139

1

As pointed out in the other answers, the mean x¯ and standard deviation σx are essentially unrelated in that it is not necessary for the standard deviation to be smaller than the mean. However, if the data are nonnegative, taking on values in [0,c], say, then, for large data sets (where the distinction between dividing by n or by n1 does not matter very much), the following inequality holds:

σxx¯(cx¯)c2
and so if x¯>c/2, we can be sure that σx will be smaller. Indeed, since σx=c/2 only for an extremal distribution (half the data have value 0 and the other half value c), σx<x¯ can hold in some cases when x¯<c/2 as well. If the data are measurements of some physical quantity that is nonnegative (e.g. area) and have an empirical distribution that is a good fit to a normal distribution, then σx will be considerably smaller than min{x¯,cx¯} since the fitted normal distribution should assign negligibly small probability to the events {X<0} and {X>c}.

4
I don't think the question is whether the dataset is normal; its non-normality is stipulated. The question concerns whether there might have been some error made in computing the standard deviation, because the OP is surprised that even in this obviously non-normal dataset the SD is much larger than the mean. If an error was not made, what can one conclude from such a large coefficient of variation?
whuber

9
Any answer or comment that claims the mean and sd of a dataset are unrelated is plainly incorrect, because both are functions of the same data and both will change whenever a single one of the data values is changed. This remark does bear some echoes of a similar sounding statement that is true (but not terribly relevant to the current question); namely, that the sample mean and sample sd of data drawn independently from a normal distribution are independent (in the probabilistic sense).
whuber

1

What you seem to have in mind implicitly is a prediction interval that would bound the occurrence of new observations. The catch is: you must postulate a statistical distribution compliant with the fact that your observations (triangle areas) must remain non-negative. Normal won't help, but log-normal might be just fine. In practical terms, take the log of observed areas, calculate the mean and standard deviation, form a prediction interval using the normal distribution, and finally evaluate the exponential for the lower and upper limits -- the transformed prediction interval won't be symmetric around the mean, and is guaranteed to not go below zero. This is what I think the OP actually had in mind.


0

Felipe Nievinski points to a real issue here. It makes no sense to talk in normal distribution terms when the distribution is clearly not a normal distribution. All-positive values with a relatively small mean and relatively large standard deviation cannot have a normal distribution. So, the task is to figure out what sort of distribution fits the situation. The original post suggests that a normal distribution (or some such) was clearly in mind. Otherwise negative numbers would not come up. Log normal, Rayleigh, Weibull come to mind ... I don't know but wonder what might be best in a case like this?

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.