Інтуїція (геометрична чи інша)


19

Розглянемо елементарну ідентичність дисперсії:

Var(X)=E[(XE[X])2]=...=E[X2](E[X])2

Це проста алгебраїчна маніпуляція визначення центрального моменту на нецентральні моменти.

Це дозволяє зручно маніпулювати в інших контекстах. Він також дозволяє обчислити дисперсію за допомогою одного проходу над даними, а не через два проходи, спочатку обчислити середнє значення, а потім обчислити дисперсію.Var(X)

Але що це означає ? Для мене немає жодної негайної геометричної інтуїції, яка стосується поширення про середнє значення для поширення приблизно 0. Оскільки є набором для одного виміру, як ви розглядаєте розкидання навколо середнього як різницю між поширенням навколо початку і квадратом означає?X

Чи є якісні інтерпретації лінійної алгебри чи фізичні інтерпретації чи інші, які давали б уявлення про цю ідентичність?


7
Підказка: це теорема Піфагора.
whuber

1
@Matthew Цікаво, що означає " E ". Я підозрюю, що це не очікування, а просто скорочення середнього арифметичного. Інакше рівняння були б невірними (і майже безглуздими, оскільки вони б потім порівнювали випадкові величини з числами).
whuber

2
@whuber Оскільки внутрішні доробки вводять уявлення про відстані та кути, а внутрішній добуток векторного простору реальних значення випадкових величин визначається як E[XY] (?), мені цікаво, чи можна було б дати деяку геометричну інтуїцію через нерівність трикутника Я поняття не маю, як діяти, але мені було цікаво, чи має це сенс.
Антоні Пареллада

1
@Antoni Нерівність трикутника занадто загальна. Внутрішній виріб - набагато більш особливий об’єкт. На щастя, відповідна геометрична інтуїція полягає саме в евклідовій геометрії. Більше того, навіть у випадку випадкових змінних X і Y необхідна геометрія може обмежуватися двовимірним реальним векторним простором, породженим X і Y : тобто самою евклідовою площиною. У теперішньому екземплярі X не здається RV: це просто n вектор. Тут простір, що охоплюється X і (1,1,,1)- це площина Евкліда, в якій відбувається вся геометрія.
whuber

3
Установка β 1 = 0 у відповідь я пов'язані, і розділивши всі члени на п (якщо ви хочете) дасть вам повне алгебраїчне рішення для дисперсії: немає ніяких причин , щоб скопіювати його знову і знову. Це тому , що β 0 являє собою середнє арифметичне у , звідки | | у - у | | 2 - це лише n -кратна дисперсія, як ви її тут визначили, | | у | | 2 в n разів більше середнього арифметичного квадрата, і |β^1=0nβ^0y||yy^||2n||y^||2n||y||2 вn разів більше середнього арифметичного значень квадрата.
whuber

Відповіді:


21

Розширюючи точку @ whuber у коментарях, якщо Y і Z ортогональні, ви маєте теорему Піфагора :

Y2+Z2=Y+Z2

Зауважимо , що є допустимим скалярний твір і що | | Y | | = Y,ZE[YZ] -норма, викликана цим внутрішнім продуктом.Y=E[Y2]

Нехай - якась випадкова величина. Нехай Y = E [ X ] , нехай Z = X - E [ X ] . Якщо Y і Z ортогональні:XY=E[X]Z=XE[X]YZ

Y2+Z2=Y+Z2E[E[X]2]+E[(XE[X])2]=E[X2]E[X]2+Var[X]=E[X2]

І легко показати, що і Z = X - E [ X ] є ортогональними під цим внутрішнім твором:Y=E[X]Z=XE[X]

Y,Z=E[E[X](XE[X])]=E[X]2E[X]2=0

Одна з ніжок трикутника , інша нога E [ X ] , а гіпотенуза X . І теорему Піфагора можна застосувати, оскільки зведена випадкова величина є ортогональною за своїм значенням.XE[X]E[X]X


Технічне зауваження:

в цьому прикладі дійсно повинен бути вектор Y = E [ X ] 1 , тобто скалярний E [ X ] кратний постійному вектору 1 (наприклад, 1 = [ 1 , 1 , 1 , ... , 1 ] ' в дискретному , випадок з кінцевим результатом). Y являє собоювектор проекціїз X на постійний вектор 1 .YY=E[X]1E[X]11=[1,1,1,,1]YX1

Простий приклад

Розглянемо випадок, коли - випадкова величина Бернуллі, де p = .2 . Ми маємо:Xp=.2

X=[10]P=[.2.8]E[X]=iPiXi=.2

Y=E[X]1=[.2.2]Z=XE[X]=[.8.2]

А малюнок такий: enter image description here

Величина червоного вектора у квадраті - це дисперсія , квадратна величина синього вектора - E [ X ] 2 , а квадратна величина жовтого вектора - E [ X 2 ] .XE[X]2E[X2]

ПАМ’ЯТАЙТЕ, хоча ці величини, ортогональність тощо не стосуються звичайного крапкового добутку а внутрішнього продукту i P i Y i Z i . Величина жовтого вектора не дорівнює 1, це 2.iYiZiiPiYiZi

Червоний вектор та синій вектор Z = X - E [ X ] перпендикулярні під внутрішнім твором i P i Y i Z i, але вони не перпендикулярні в інтро, середній школі геометрії. Пам'ятайте, що ми не використовуємо звичайний точковий продукт i Y i Z i як внутрішній продукт!Y=E[X]Z=XE[X]iPiYiZiiYiZi


Це справді добре!
Антоні Пареллада

1
Хороша відповідь (+1), але вона не вистачає цифри, а також може бути трохи заплутаною для ОП, тому що ваш Z - їх X ...
Амеба каже, що повернеться Моніка

@MatthewGunn, чудова відповідь. ви можете перевірити мою відповідь нижче, щоб представити, де ортогональність є в евклідовому розумінні.
YBE

Я ненавиджу бути тупим, але у мене виникають проблеми з збереженням , V a r ( X ) та напрямком логіки прямо ("тому що" приходить у місцях, які для мене не мають сенсу). Схоже, багато (добре обґрунтованих) фактів викладені випадковим чином. У якому просторі знаходиться внутрішній продукт? Чому 1 ? ZVar(X)
Мітч

@Mitch Логічний порядок такий: (1) Зауважте, що простір ймовірностей визначає векторний простір; ми можемо трактувати випадкові величини як вектори. (2) Визначте внутрішній добуток випадкових величин і Z як E [ Y Z ] . У внутрішньому просторі продукту вектори Y і Z визначаються як ортогональні, якщо їх внутрішній добуток дорівнює нулю. (3a) Нехай X - деяка випадкова величина. (3b) Нехай Y = E [ X ] і Z = X - E [ X ] . (4) Зауважте, що Y і ZYZE[YZ]YZXY=E[X]Z=XE[X]YZВизначені таким чином є ортогональними. (5) Оскільки і Z є ортогональними, застосовується теорема піфагора (6) До простої алгебри теорема Піфагора еквівалентна тотожності. YZ
Меттью Ганн

8

Я піду суто геометричний підхід для дуже конкретного сценарію. Розглянемо дискретно оцінену випадкову змінну приймає значення { x 1 , x 2 } з ймовірностями ( p 1 , p 2 ) . Далі будемо вважати, що ця випадкова величина може бути представлена ​​в R 2 як вектор, X = ( x 1 X{x1,x2}(p1,p2)R2. X=(x1p1,x2p2)enter image description here

Notice that the length-square of X is x12p1+x22p2 which is equal to E[X2]. Thus, X=E[X2].

Since p1+p2=1, the tip of vector X actually traces an ellipse. This becomes easier to see if one reparametrizes p1 and p2 as cos2(θ) and sin2(θ). Hence, we have p1=cos(θ) and p2=sin(θ).

One way of drawing ellipses is via a mechanism called Trammel of Archimedes. As described in wiki: It consists of two shuttles which are confined ("trammelled") to perpendicular channels or rails, and a rod which is attached to the shuttles by pivots at fixed positions along the rod. As the shuttles move back and forth, each along its channel, the end of the rod moves in an elliptical path. This principle is illustrated in the figure below.

Now let us geometrically analyze one instance of this trammel when the vertical shuttle is at A and the horizontal shuttle is at B forming an angle of θ. Due to construction, |BX|=x2 and |AB|=x1x2, θ (here x1x2 is assumed wlog).

enter image description here

Let us draw a line from origin, OC, that is perpendicular to the rod. One can show that |OC|=(x1x2)sin(θ)cos(θ). For this specific random variable

Var(X)=(x12p1+x22p2)(x1p1+x2p2)2=x12p1+x22p2x12p12x22p222x1x2p1p2=x12(p1p12)+x22(p2p22)2x1x2p1p2=p1p2(x122x1x2+x22)=[(x1x2)p1p2]2=|OC|2
Therefore, the perpendicular distance |OC| from the origin to the rod is actually equal to the standard deviation, σ.

If we compute the length of segment from C to X:

|CX|=x2+(x1x2)cos2(θ)=x1cos2(θ)+x2sin2(θ)=x1p1+x2p2=E[X]

Applying the Pythagorean Theorem in the triangle OCX, we end up with

E[X2]=Var(X)+E[X]2.

To summarize, for a trammel that describes all possible discrete valued random variables taking values {x1,x2}, E[X2] is the distance from the origin to the tip of the mechanism and the standard deviation σ is the perpendicular distance to the rod.

Note: Notice that when θ is 0 or π/2, X is completely deterministic. When θ is π/4 we end up with maximum variance.


1
+1 Nice answer. And multiplying vectors by the square of the probabilities is a cool/useful trick to make the usual probabilistic notion of orthogonality look orthogonal!
Matthew Gunn

Great graphics. The symbols all make sense (the trammel describing an ellipse and then the Pythagorean Thm applies) but somehow I'm not getting intuitively how it gives an idea of how 'magically' it relates the moments (the spread and center.
Mitch

consider the trammel as a process that defines all the possible (x1,x2) valued random variables. When the rod is horizontal or vertical you have a deterministic RV. In the middle there is randomness and it turns out that in my proposed geometric framework how random a RV (its std) is exactly measured by the distance of the rod to the origin. There might be a deeper relationship here as elliptic curves connects various objects in math but I am not a mathematician so I cannot really see that connection.
YBE

3

You can rearrange as follows:

Var(X)=E[X2](E[X])2E[X2]=(E[X])2+Var(X)

Then, interpret as follows: the expected square of a random variable is equal to the square of its mean plus the expected squared deviation from its mean.


Oh. Huh. Simple. But the squares still seem kinda uninterpreted. I mean it makes sense (sort of, extremely loosely) without the squares.
Mitch

3
I am not sold on this.
Michael R. Chernick

1
If the Pythagorean theorem applies, what is the triangle with what sides and how are the two legs perpendicular?
Mitch

1

Sorry for not having the skill to elaborate and provide a proper answer, but I think the answer lies in the physical classical mechanics concept of moments, especially the conversion between 0 centred "raw" moments and mean centred central moments. Bear in mind that variance is the second order central moment of a random variable.


1

The general intuition is that you can relate these moments using the Pythagorean Theorem (PT) in a suitably defined vector space, by showing that two of the moments are perpendicular and the third is the hypotenuse. The only algebra needed is to show that the two legs are indeed orthogonal.

For the sake of the following I'll assume you meant sample means and variances for computation purposes rather than moments for full distributions. That is:

E[X]=1nxi,mean,first central sample momentE[X2]=1nxi2,second sample moment (noncentral)Var(X)=1n(xiE[X])2,variance,second central sample moment

(where all sums are over n items).

For reference, the elementary proof of Var(X)=E[X2]E[X]2 is just symbol pushing:

Var(X)=1n(xiE[X])2=1n(xi22E[X]xi+E[X]2)=1nxi22nE[X]xi+1nE[X]2=E[X2]2E[X]2+1nnE[X]2=E[X2]E[X]2

There's little meaning here, just elementary manipulation of algebra. One might notice that E[X] is a constant inside the summation, but that is about it.

Now in the vector space/geometrical interpretation/intuition, what we'll show is the slightly rearranged equation that corresponds to PT, that

Var(X)+E[X]2=E[X2]

So consider X, the sample of n items, as a vector in Rn. And let's create two vectors E[X]1 and XE[X]1.

The vector E[X]1 has the mean of the sample as every one of its coordinates.

The vector XE[X]1 is x1E[X],,xnE[X].

These two vectors are perpendicular because the dot product of the two vectors turns out to be 0:

E[X]1(XE[X]1)=E[X](xiE[X])=(E[X]xiE[X]2)=E[X]xiE[X]2=nE[X]E[X]nE[X]2=0

So the two vectors are perpendicular which means they are the two legs of a right triangle.

Then by PT (which holds in Rn), the sum of the squares of the lengths of the two legs equals the square of the hypotenuse.

By the same algebra used in the boring algebraic proof at the top, we showed that we get that E[X2] is the square of the hypotenuse vector:

(XE[X])2+E[X]2=...=E[X2] where squaring is the dot product (and it's really E[x]1 and (XE[X])2 is Var(X).

The interesting part about this interpretation is the conversion from a sample of n items from a univariate distribution to a vector space of n dimensions. This is similar to n bivariate samples being interpreted as really two samples in n variables.

In one sense that is enough, the right triangle from vectors and E[X2] pops out as the hypotnenuse. We gave an interpretation (vectors) for these values and show they correspond. That's cool enough, but unenlightening either statistically or geometrically. It wouldn't really say why and would be a lot of extra conceptual machinery to, in the end mostly, reproduce the purely algebraic proof we already had at the beginning.

Another interesting part is that the mean and variance, though they intuitively measure center and spread in one dimension, are orthogonal in n dimensions. What does that mean, that they're orthogonal? I don't know! Are there other moments that are orthogonal? Is there a larger system of relations that includes this orthogonality? central moments vs non-central moments? I don't know!


I am also interested in an interpretation/intuition behind the superficially similar bias variance tradeoff equation. Does anybody have hints there?
Mitch

Let pi be the probability of state i occurring. If pi=1n then ipiXiYi=1niXiYi, that is, E[XY] is simply the dot product between X and Y divided by n. If ipi=1n, what I used as an inner product ( E[XY]=ipiXiYi) is basically the dot product divided by n. This whole Pythagorean interpretation still needs to you use the particular inner product E[XY] (though it's algebriacly close to the classic dot product for a probability measure P such that ipi=1n).
Matthew Gunn

Btw, the trick @YBE did is to define new vectors x^ and y^ such that x^i=xipi and y^i=xipi. Then dot product x^y^=ixipiyipi=ipixiyi=E[xy].The dot product of x^ and y^ corresponds to E[xy] (which is what I used as an inner product).
Matthew Gunn
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.