Це є дійсно що - то. Щоб це з’ясувати, нам потрібно вивчити те, що ми знаємо про кореляцію.
Кореляційна матриця векторнозначной випадкової величини X=(X1,X2,…,Xp) є ковариационной матрицею, або просто «дисперсії» стандартизованої версії X . Тобто кожен Xi замінюється його перегляненою, переробленою версією.
Коваріація Xi та Xj - це очікування добутку їх централізованих версій. Тобто, записуючи X′i=Xi−E[Xi] і X′j=Xj−E[Xj] , ми маємо
Cov(Xi,Xj)=E[X′iX′j].
Дисперсія , яку я напишу Var ( X ) , не є одиничним числом. Це масив значень Var ( X ) i j = Cov ( X i , X j ) .XVar(X)
Var(X)ij=Cov(Xi,Xj).
Спосіб думати про коваріантність передбачуваного узагальнення - вважати її тензором . Це означає, що це ціла сукупність величин , індексованих i і j, починаючи від 1 до p , значення яких змінюються особливо простим передбачуваним способом, коли X зазнає лінійного перетворення. Зокрема, нехай Y = ( Y 1 , Y 2 , ... , Y q ) - ще одна випадкова величина, що оцінюється за векторною ознакоюvijij1pXY=(Y1,Y2,…,Yq)
Yi=∑j=1pajiXj.
Константи (iіj-індекси-jне є потужністю) утворюютьмасивq×pA=(aajiijjq×p,j=1,…,pіi=1,…,q. Лінійність очікування передбачаєA=(aji)j=1,…,pi=1,…,q
Var(Y)ij=∑akialjVar(X)kl.
У матричних позначеннях
Var(Y)=AVar(X)A′.
Усі компоненти насправді є універсальними дисперсіями, обумовленими ідентичністю поляризаціїVar(X)
4Cov(Xi,Xj)=Var(Xi+Xj)−Var(Xi−Xj).
Це говорить нам про те, що якщо ви розумієте варіації одновимірних випадкових змінних, ви вже розумієте коваріації біваріантних змінних: вони є "просто" лінійними комбінаціями дисперсій.
Вираз у питанні є абсолютно аналогічним: змінні були стандартизовані, як у ( 1 ) . Ми можемо зрозуміти, що це означає, розглядаючи, що це означає для будь-якої змінної, стандартизованої чи ні. Ми замінили б кожен X i його центрованою версією, як у ( 2 ) , і сформували величини, що мають три індекси,Xi(1)Xi(2)
μ3(X)ijk=E[X′iX′jX′k].
Це центральні (багатоваріантні) моменти ступеня3 . Як і в , вони утворюють тензор: коли Y = A X , то(4)Y=AX
μ3(Y)ijk=∑l,m,naliamjankμ3(X)lmn.
Індекси в цій потрійній сумі знаходяться на всіх комбінаціях цілих чисел від до p .1p
Аналогом ідентичності поляризації є
24μ3(X)ijk=μ3(Xi+Xj+Xk)−μ3(Xi−Xj+Xk)−μ3(Xi+Xj−Xk)+μ3(Xi−Xj−Xk).
У правій частині позначає (однофакторний) центральний третій момент: очікуване значення куба відцентрованої змінної. Коли змінні стандартизовані, цей момент зазвичай називають косою . Відповідно, ми можемо думати про ц 3 ( X ) як є багатовимірний перекіс з X . Це тензор третього рангу (тобто з трьома індексами), значення яких є лінійними комбінаціями похилих різних сум і різниць X i . Якби ми шукали інтерпретації, то ми б вважали ці компоненти мірними в pμ3μ3(X)XXipрозміри, незалежно від вимірювання косості в одному вимірі. У багатьох випадках
Перші моменти вимірюють місце розподілу;
Другі моменти (дисперсія-коваріаційна матриця) вимірюють її поширення ;
Стандартизовані другі моменти (кореляції) вказують на те, як змінюється спред у -вимірному просторі; іp
Для вимірювання форми розподілу відносно його поширення приймаються стандартизовані третій та четвертий моменти .
Щоб детальніше розглянути, що може означати багатовимірна "форма", зауважив, що ми можемо розуміти PCA як механізм зменшення будь-якого багатофакторного розподілу до стандартної версії, розташованої біля джерела, і рівного розповсюдження у всіх напрямках. Після виконання PCA, забезпечить найпростіші показники багатовимірної форми розподілу. Ці ідеї однаково добре застосовуються до даних, як до випадкових змінних, оскільки дані завжди можна проаналізувати з точки зору їх емпіричного розподілу.μ3
Довідково
Алан Стюарт та Дж. Кіт Орд, п'ята редакція передової теорії статистики Кендала , Том 1: Теорія розподілу ; Глава 3, Моменти та сукупності . Oxford University Press (1987).
Додаток: Доказ ідентичності поляризації
Нехай - алгебраїчні змінні. Існує 2 n способів додавання і віднімання всіх n з них. Коли ми збільшимо кожну з цих сум і різниць до n- ї потужності, підберемо відповідний знак для кожного з цих результатів і додамо їх, ми отримаємо кратне x 1 x 2 ⋯ x n .x1,…,xn2nnnthx1x2⋯xn
Більш формально, нехай - множина всіх n -парів ± 1 , так що будь-який елемент s ∈ S є вектором s = ( s 1 , s 2 , … , s n ), чий коефіцієнти всі ± 1 . Претензія єS={1,−1}nn±1s∈Ss=(s1,s2,…,sn)±1
2nn!x1x2⋯xn=∑s∈Ss1s2⋯sn(s1x1+s2x2+⋯+snxn)n.(1)
Indeed, the Multinomial Theorem states that the coefficient of the monomial xi11xi22⋯xinn (where the ij are nonnegative integers summing to n) in the expansion of any term on the right hand side is
(ni1,i2,…,in)si11si22⋯sinn.
In the sum (1), the coefficients involving xi11 appear in pairs where one of each pair involves the case s1=1, with coefficient proportional to s1 times si11, equal to 1, and the other of each pair involves the case s1=−1, with coefficient proportional to −1 times (−1)i1, equal to (−1)i1+1. They cancel in the sum whenever i1+1 is odd. The same argument applies to i2,…,in. Consequently, the only monomials that occur with nonzero coefficients must have odd powers of all the xi. The only such monomial is x1x2⋯xn. It appears with coefficient (n1,1,…,1)=n! in all 2n terms of the sum. Consequently its coefficient is 2nn!, QED.
We need take only half of each pair associated with x1: that is, we can restrict the right hand side of (1) to the terms with s1=1 and halve the coefficient on the left hand side to 2n−1n! . That gives precisely the two versions of the Polarization Identity quoted in this answer for the cases n=2 and n=3: 22−12!=4 and 23−13!=24.
Of course the Polarization Identity for algebraic variables immediately implies it for random variables: let each xi be a random variable Xi. Take expectations of both sides. The result follows by linearity of expectation.