Лінійність дисперсії


16

Я думаю, що дві наступні формули вірні:

Var(aX)=a2Var(X)
а a - постійне число якщо,незалежні
Var(X+Y)=Var(X)+Var(Y)
XY

Однак я не впевнений, що не так із наведеним нижче:

Var(2X)=Var(X+X)=Var(X)+Var(X)
що не дорівнює , тобто .22Var(X)4Var(X)

Якщо припустити, що - це вибірка, взята з популяції, я думаю, що ми завжди можемо вважати, що є незалежним від інших s.X XXXX

Отже, що не так з моєю плутаниною?


8
Варіант не є лінійним - ваше перше твердження показує це (якби воно було, ви мали б Var(aX)=aVar(X) . З іншого боку, коваріація білінеарна.
Бетмен

Відповіді:


33

Проблема з вашим розсудом є

"Я думаю, що ми завжди можемо вважати, що незалежний від інших X s".XX

не залежить від X . Символ X використовується для позначення однієї і тієї ж випадкової величини. Після того, як ви знаєте значення першого X, яке відображатиметься у вашій формулі, це також фіксує значення другого X для відображення. Якщо ви хочете, щоб вони посилалися на різні (і потенційно незалежні) випадкові величини, вам потрібно позначити їх різними літерами (наприклад, X іXXXXXX ) або використовуючи підписки (наприклад, X 1 і X 2 ); остання часто (але не завжди) використовується для позначення змінних, отриманих з одного і того ж розподілу.YX1X2

Якщо дві змінні і Y незалежні , то Pr ( X = | Y = б ) така ж , як Pr ( X = ) : знаючи значення Y не дає ніякої додаткової інформації про значення X . Але Pr ( X = a | X = b ) дорівнює 1, якщо a = b і 0 в іншому випадку: знаючи значення XXYPr(X=a|Y=b)Pr(X=a)YXPr(X=a|X=b)1a=b0Xдає вам повну інформацію про вартість . [Ви можете замінити ймовірності в цьому абзаці на кумулятивні функції розподілу, або, де це доречно, функції щільності ймовірностей, по суті того ж ефекту.]X

Інший спосіб бачити речі в тому , що якщо дві змінні незалежні , то вони мають нульову кореляцію (хоча нульова кореляція не означає незалежність !) , Але є цілком корелюють з собою, Corr ( X , X ) = 1 , так X не може бути незалежним самого себе. Зауважимо, що оскільки коваріація задана Cov ( X , Y ) = Corr ( X , Y ) XCorr(X,X)=1X , тодіCov(X,X)=1Cov(X,Y)=Corr(X,Y)Var(X)Var(Y)

Cov(X,X)=1Var(X)2=Var(X)

Більш загальна формула дисперсії суми двох випадкових величин

Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y)

Зокрема, , такCov(X,X)=Var(X)

Var(X+X)=Var(X)+Var(X)+2Var(X)=4Var(X)

що таке саме, як ви б вивели із застосування правила

Var(aX)=a2Var(X)Var(2X)=4Var(X)

Якщо вас цікавить лінійність, то вас може зацікавити біліарність коваріації. Для випадкових змінних , X , Y і Z (незалежно чи незалежно) і констант a , b ,WXYZab і d маємоcd

Cov(aW+bX,Y)=aCov(W,Y)+bCov(X,Y)

Cov(X,cY+dZ)=cCov(X,Y)+dCov(X,Z)

і в цілому,

Cov(aW+bX,cY+dZ)=acCov(W,Y)+adCov(W,Z)+bcCov(X,Y)+bdCov(X,Z)

Потім ви можете використовувати це, щоб довести (нелінійні) результати для дисперсії, яку ви написали у своєму дописі:

Var(aX)=Cov(aX,aX)=a2Cov(X,X)=a2Var(X)

Var(aX+bY)=Cov(aX+bY,aX+bY)=a2Cov(X,X)+abCov(X,Y)+baCov(X,Y)+b2Cov(Y,Y)Var(aX+bY)=a2Var(X)+b2Var(Y)+2abCov(X,Y)

Останнє дає окремий випадок, коли ,a=b=1

Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y)

Коли і Y є некорельованими (що включає випадок, коли вони незалежні), то це зводиться до Var ( X + Y ) = Var ( X ) + Var ( Y ) . Тож якщо ви хочете маніпулювати варіаціями "лінійним" способом (що часто є приємним алгебраїчним способом роботи), тоді замість цього працюйте з коваріаціями та використовуйте їх біліарність.XYVar(X+Y)=Var(X)+Var(Y)


1
Так! Я думаю, ви на початку визначили, що плутанина була по суті нотаційною. Я вважаю це дуже корисним, коли одна книга (дуже явно, дехто може сказати наполегливо) пояснювала інтерпретацію та правила оцінки ймовірнісного твердження (так, наприклад, навіть якщо ви знаєте, що ви маєте на увазі де X Уніформа ( 1..6 ) , це технічно неправильно, якщо ви думаєте кинути n в лайки (а X + X = 2 XPr(X+X=n)XUniform(1..6)nX+X=2X ніколи не дасть непарний рулон); подія буде правильно виражена за допомогою X1,X2

1
2+PRNG(6)+PRNG(6)2d6=d6+d6

@Vandermonde That's an interesting point. I initially considered mentioning the use of subscripts to distinguish between "different Xs" but didn't bother - think I might edit it in now. The argument that "you'd never get an odd total score if the sum was 2X" is very clear and convincing to someone who can't see the need to distinguish: thanks for sharing it.
Silverfish

0

Another way of thinking about it is that with random variables 2XX+X.

2X would mean two times the value of the outcome of X, while X+X would mean two trials of X. In other words, it's the difference between rolling a die once and doubling the result, vs rolling a die twice.


+1 This is a perfectly clear and correct answer. Welcome to our site!
whuber

Thanks @whuber!
Benjamin
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.