Чому дисперсія не визначається як різниця між кожним значенням, що слідують один за одним?


19

Це може бути простим питанням для багатьох, але ось це:

Чому дисперсія не визначається як різниця між кожним значенням, що слідують один за одним замість різниці до середнього значення?

Це було б для мене більш логічним вибором, я думаю, я очевидно переглядаю деякі недоліки. Спасибі

Редагувати:

Дозвольте перефразувати якомога чіткіше. Це те, що я маю на увазі:

  1. Припустимо, у вас впорядкований діапазон номерів: 1,2,3,4,5
  2. Обчисліть та підсумуйте (абсолютні) різниці (безперервно, між кожним наступним значенням, а не попарно) між значеннями (без використання середнього).
  3. Розділіть на кількість різниць
  4. (Спостереження: чи була б відповідь іншою, якби номери не були впорядковані)

-> Які недоліки такого підходу порівняно зі стандартною формулою для дисперсії?


1
Можливо, вам буде цікаво читати про автокореляцію (наприклад, stats.stackexchange.com/questions/185521/… ).
Тім

2
@ user2305193 Відповідь Уубера є правильною, але його формула використовує квадратну відстань між впорядкуванням даних та усередненням для всіх замовлень. Акуратний трюк, однак процес пошуку тієї дисперсії, яку ви вказали, - це саме те, що я намагався реалізувати у своїй відповіді, і продемонстрував, що не принесе хорошої роботи. Намагаються очистити плутанину.
Greenparker

1
Для задоволення знайдіть Allan Variance.
варення

З іншого боку, я думаю, оскільки ви не квадратичні різниці (а потім не приймаєте квадратний корінь), але приймаєте абсолютні значення, це має бути скоріше "чому не так, як ми обчислюємо стандартне відхилення" замість "чому це не так, як ми обчислюємо дисперсію". Але я дам йому відпочити зараз
user2305193

Відповіді:


27

Найбільш очевидною причиною є те, що часто немає послідовностей у значеннях часу. Отже, якщо ви перемішуєте дані, це не має різниці в інформації, що передається даними. Якщо ми дотримуємося вашого методу, то кожного разу, коли ви перемішуєте дані, ви отримуєте різну вибірку дисперсії.

Більш теоретична відповідь полягає в тому, що дисперсія вибірки оцінює справжню дисперсію випадкової величини. Справжня дисперсія випадкової величини - E [ ( X - E X ) 2 ] .Х

Е[(Х-ЕХ)2].

Тут позначає очікування або "середнє значення". Отже визначення дисперсії - це середня квадратна відстань між змінною від її середнього значення. Якщо ви подивитесь на це визначення, тут немає "порядку часу", оскільки немає даних. Це лише атрибут випадкової величини.Е

Коли ви збираєте iid дані з цього розповсюдження, у вас є реалізації . Найкращий спосіб оцінити очікування - взяти середні вибірки. Ключовим тут є те, що ми отримали дані iid, і тому немає впорядкування даних. Вибірка x 1 , x 2 , , x n є такою ж, як вибірка x 2 , x 5 , x 1 , x n . .х1,х2,,хнх1,х2,,хнх2,х5,х1,хн..

EDIT

Дисперсія зразка вимірює специфічний вид дисперсії для вибірки, той, який вимірює середню відстань від середньої. Існують і інші види дисперсії, такі як діапазон даних та міжквартальний діапазон.

Навіть якщо ви сортуєте свої значення у порядку зростання, це не змінює характеристики вибірки. Отриманий зразок (дані) - це реалізація змінної. Розрахунок дисперсії вибірки схожий на розуміння, скільки дисперсії в змінній. Наприклад, якщо ви відібрали 20 осіб і обчислили їхній зріст, то це 20 "реалізацій" від випадкової величини зріст людей. Тепер дисперсія вибірки повинна вимірювати мінливість у зростанні особин загалом. Якщо ви замовляєте дані 100 , 110 , 123 , 124 , ,Х=

100,110,123,124,,

що не змінює інформацію у вибірці.

Розглянемо ще один приклад. дозволяє сказати , що у Вас є 100 спостережень від випадкової величини упорядкованого таким чином , Тоді середня наступна відстань дорівнює 1 одиниці, тож за вашим методом дисперсія буде дорівнює 1.

1,2,3,4,5,6,7,8,9,10,11,12,13,14,...100.

Спосіб інтерпретації "дисперсії" або "дисперсії" - це зрозуміти, який діапазон значень вірогідний для даних. У цьому випадку ви отримаєте діапазон в розмірі 0,99 одиниці, що, звичайно, не представляє відмінності.

Якщо замість середнього значення ви просто підсумуєте наступні відмінності, то ваша дисперсія буде 99. Звичайно, це не відображає змінності у вибірці, оскільки 99 дає вам діапазон даних, а не відчуття змінності.


1
З останнім абзацом ви звернулися до мене, ха-ха, дякую за цю відповідь, що сприймає горіння, я б хотів, щоб у мене було достатньо репрезентації, щоб підняти це, будь ласка, люди, зробіть це для мене ;-) ПРИЙМИЛИ !!!
user2305193

Подальше спостереження: Що я насправді мав на увазі (так, вибачте, я зрозумів правильне запитання лише після прочитання вашої відповіді), чи було ви підсумувати відмінності та розділити їх на кількість зразків. У вашому останньому прикладі це було б 99/100 - чи можете ви детальніше розглянути це для повного розкутості?
user2305193

@ user2305193 Правильно, я сказав, що в середньому 1 одиниця, що невірно. Це повинно було бути .99 одиниць. Змінив це.
Greenparker

Для отримання додаткової інформації про серії 1-100: дисперсія в 1-100 складе 841,7, а стандартне відхилення - джерело 29,01 . Тож справді зовсім інший результат.
user2305193

31

Це буде визначено , що шлях!

Ось алгебра. Нехай значення будуть . Позначимо через F емпірична функція розподілу цих значень (що означає , що кожен х я вносить свій внесок вірогідну масу 1 / п при значенні х I ) , і нехай X і Y незалежні випадкові величини з розподілом F . В силу основних властивостей дисперсії (а саме це квадратична форма), а також визначення F і фактуx=(x1,x2,,xn)Fxi1/nxiXYFF і Y мають однакове середнє значення,XY

Var(x)=Var(X)=12(Var(X)+Var(Y))=12(Var(XY))=12(E((XY)2)E(XY)2)=E(12(XY)2)0=1n2i,j12(xixj)2.

Ця формула не залежить від способу впорядкування : вона використовує всі можливі пари компонентів, порівнюючи їх, використовуючи половину їхніх відмінностей у квадраті. Однак це може бути пов'язано із середнім показником за всіма можливими впорядкуваннями (група S ( n ) усіх n ! Перестановок індексів 1 , 2 , , n ). А саме,xS(n)n!1,2,,n

Var(x)=1n2i,j12(xixj)2=1n!σS(n)1ni=1n112(xσ(i)xσ(i+1))2.

That inner summation takes the reordered values xσ(1),xσ(2),,xσ(n) and sums the (half) squared differences between all n1 successive pairs. The division by n essentially averages these successive squared differences. It computes what is known as the lag-1 semivariance. The outer summation does this for all possible orderings.


These two equivalent algebraic views of the standard variance formula give new insight into what the variance means. The semivariance is an inverse measure of the serial covariance of a sequence: the covariance is high (and the numbers are positively correlated) when the semivariance is low, and conversely. The variance of an unordered dataset, then, is a kind of average of all possible semivariances obtainable under arbitrary reorderings.


1
@Mur1lo On the contrary: I believe this derivation is correct. Apply the formula to some data and see!
whuber

1
I think Mur1lo may have been talking not about the correctness of the formula for variance but about apparently passing directly from expectations of random variables to functions of sample quantities.
Glen_b -Reinstate Monica

1
@glen But that's precisely what the empirical distribution function lets us do. That's the entire point of this approach.
whuber

3
Yes, that's clear to me; I was trying to point out where the confusion seemed to lay. Sorry to be vague. Hopefully it's clearer now why it only appears* to be a problem. *(this why I used the word "apparent" earlier, to emphasize it was just the out-of-context appearance of that step that was likely to be the cause of the confusion)
Glen_b -Reinstate Monica

2
@Mur1o The only thing I have done in any of these equations is to apply definitions. There is no passing from expectations to "sample quantities". (In particular, no sample of F has been posited or used.) Thus I am unable to identify what the apparent problem is, nor suggest an alternative explanation. If you could expand on your concern then I might be able to respond.
whuber

11

Just a complement to the other answers, variance can be computed as the squared difference between terms:

Var(X)=12n2injn(xixj)2=12n2injn(xix¯xj+x¯)2=12n2injn((xix¯)(xjx¯))2=1nin(xix¯)2

I think this is the closest to the OP proposition. Remember the variance is a measure of dispersion of every observation at once, not only between "neighboring" numbers in the set.


UPDATE

Using your example: X=1,2,3,4,5. We know the variance is Var(X)=2.

With your proposed method Var(X)=1, so we know beforehand taking the differences between neighbors as variance doesn't add up. What I meant was taking every possible difference squared then summed:

Var(X)==(51)2+(52)2+(53)2+(54)2+(55)2+(41)2+(42)2+(43)2+(44)2+(45)2+(31)2+(32)2+(33)2+(34)2+(35)2+(21)2+(22)2+(23)2+(24)2+(25)2+(11)2+(12)2+(13)2+(14)2+(15)2252==16+9+4+1+9+4+1+1+4+1+1+4+1+1+4+9+1+4+9+1650==2

Now I'm seriously confused guys
user2305193

@user2305193 In your question, did you mean every pairwise difference or did you mean the difference between a value and the next in a sequence? Could you please clarify?
Firebug

2
@Mur1lo no one is though, I have no idea what you're referring to.
Firebug

2
@ Mur1lo Це загальне питання, і я відповів на нього загалом. Варіантність - це обчислюваний параметр, який можна оцінити за вибірками. Однак це питання не стосується оцінки. Також ми говоримо про дискретні множини, а не про безперервні розподіли.
Firebug

1
Ви показали, як оцінити дисперсію за її U-статистикою та її штрафом. Проблема полягає в тому, що коли ви пишете: Var ("верхній регістр" X) = речі, що стосуються "нижнього регістру" x, ви змішуєте два різних поняття параметра і оцінки.
Mur1lo

6

Інші відповіли про корисність дисперсії, визначеної як зазвичай. У будь-якому випадку, у нас просто є два законних визначення різних речей: звичайне визначення дисперсії та ваше визначення.

Тоді, головне питання, чому перше називається дисперсією, а не вашою. Це лише питання конвенції. До 1918 року ви могли придумати все, що завгодно, і назвали це "дисперсією", але в 1918 році Фішер застосував це ім'я до того, що все ще називається дисперсією, і якщо ви хочете визначити щось інше, вам потрібно буде знайти інше ім'я, щоб назвати його.

Інше питання - чи те, що ви визначили, може бути корисним для чого-небудь. Інші вказували на його проблеми, які слід використовувати як міру розповсюдження, але вирішувати, що ви шукаєте для цього, залежить від вас. Можливо, ви знайдете настільки корисні програми, що через століття ваша річ є більш відомою, ніж дисперсія.


I know every definition is up to the people deciding on it, I really was looking for help in up/downsides for each approaches. Usually there's good reason for people converging to a definition and as I suspected didn't see why straight away.
user2305193

1
Fisher introduced variance as a term in 1918 but the idea is older.
Nick Cox

As far as I know, Fisher was the first one to use the name "variance" for variance. That's why I say that before 1918 you could have use "variance" to name anything else you had invented.
Pere

3

@GreenParker answer is more complete, but an intuitive example might be useful to illustrate the drawback to your approach.

In your question, you seem to assume that the order in which realisations of a random variable appear matters. However, it is easy to think of examples in which it doesn't.

Consider the example of the height of individuals in a population. The order in which individuals are measured is irrelevant to both the mean height in the population and the variance (how spread out those values are around the mean).

Your method would seem odd applied to such a case.


2

Although there are many good answers to this question I believe some important points where left behind and since this question came up with a really interesting point I would like to provide yet another point of view.

Why isn't variance defined as the difference between every value following    
each other instead of the difference to the average of the values?

The first thing to have in mind is that the variance is a particular kind of parameter, and not a certain type of calculation. There is a rigorous mathematical definition of what a parameter is but for the time been we can think of then as mathematical operations on the distribution of a random variable. For example if X is a random variable with distribution function FX then its mean μx, which is also a parameter, is:

μX=+xdFX(x)

and the variance of X, σX2, is:

σX2=+(xμX)2dFX(x)

The role of estimation in statistics is to provide, from a set of realizations of a r.v., a good approximation for the parameters of interest.

What I wanted to show is that there is a big difference in the concepts of a parameters (the variance for this particular question) and the statistic we use to estimate it.

Why isn't the variance calculated this way?

So we want to estimate the variance of a random variable X from a set of independent realizations of it, lets say x={x1,,xn}. The way you propose doing it is by computing the absolute value of successive differences, summing and taking the mean:

ψ(x)=1ni=2n|xixi1|

and the usual statistic is:

S2(x)=1n1i=in(xix¯)2,

where x¯ is the sample mean.

When comparing two estimator of a parameter the usual criterion for the best one is that which has minimal mean square error (MSE), and a important property of MSE is that it can be decomposed in two components:

MSE = estimator bias + estimator variance.

Using this criterion the usual statistic, S2, has some advantages over the one you suggests.

  • First it is a unbiased estimator of the variance but your statistic is not unbiased.

  • One other important thing is that if we are working with the normal distribution then S2 is the best unbiased estimator of σ2 in the sense that it has the smallest variance among all unbiased estimators and thus minimizes the MSE.

When normality is assumed, as is the case in many applications, S2 is the natural choice when you want to estimate the variance.


3
Everything in this answer is well explained, correct, and interesting. However, introducing the "usual statistic" as an estimator confuses the issue, because the question is not about estimation, nor about bias, nor about the distinction between 1/n and 1/(n1). That confusion might be at the root of your comments to several other answers in this thread.
whuber


1

Lots of good answers here, but I'll add a few.

  1. The way it is defined now has proven useful. For example, normal distributions appear all the time in data and a normal distribution is defined by its mean and variance. Edit: as @whuber pointed out in a comment, there are various other ways specify a normal distribution. But none of them, as far as I'm aware, deal with pairs of points in sequence.
  2. Variance as normally defined gives you a measure of how spread out the data is. For example, lets say you have a lot of data points with a mean of zero but when you look at it, you see that the data is mostly either around -1 or around 1. Your variance would be about 1. However, under your measure, you would get a total of zero. Which one is more useful? Well, it depends, but its not clear to me that a measure of zero for its "variance" would make sense.
  3. It lets you do other stuff. Just an example, in my stats class we saw a video about comparing pitchers (in baseball) over time. As I remember it, pitchers appeared to be getting worse since the proportion of pitches that were hit (or were home-runs) was going up. One reason is that batters were getting better. This made it hard to compare pitchers over time. However, they could use the z-score of the pitchers to compare them over time.

Nonetheless, as @Pere said, your metric might prove itself very useful in the future.


1
A normal distribution can also be determined by its mean and fourth central moment, for that matter -- or by means of many other pairs of moments. The variance is not special in that way.
whuber

@whuber interesting. I'll admit I didn't realize that. Nonetheless, unless I'm mistaken, all the moments are "variance like" in that they are based on distances from a certain point as opposed to dealing with pairs of points in sequence. But I'll edit my answers to make note of what you said.
roundsquare

1
Could you explain the sense in which you mean "deal with pairs of points in sequence"? That's not a part of any standard definition of a moment. Note, too, that all the absolute moments around the mean--which includes all even moments around the mean--give a "measure of how spread out the data" are. One could, therefore, construct an analog of the Z-score with them. Thus, none of your three points appears to differentiate the variance from any absolute central moment.
whuber

@whuber yeah. The original question posited a 4 step sequence where you sort the points, take the differences between each point and the next point, and then average these. That's what I referred to as "deal[ing] with pairs of points in sequence". So you are right, none of the three points I gave distinguishes variance from any absolute central moment - they are meant to distinguish variance (and, I suppose, all absolute central moments) from the procedure described in the original question.
roundsquare
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.