Аналогія співвідношення Пірсона для 3 змінних


17

Мене цікавить, чи є "співвідношення" трьох змінних чи ні, і якщо що, що це буде?

Коефіцієнт кореляції моменту Пірсона

E{(XμX)(YμY)}Var(X)Var(Y)

Тепер питання для 3 змінних: Є

E{(XμX)(YμY)(ZμZ)}Var(X)Var(Y)Var(Z)

що-небудь?

У R це здається чимось тлумачним:

> a <- rnorm(100); b <- rnorm(100); c <- rnorm(100)
> mean((a-mean(a)) * (b-mean(b)) * (c-mean(c))) / (sd(a) * sd(b) * sd(c))
[1] -0.3476942

Ми зазвичай дивимось на співвідношення між двома змінними, заданими значенням третьої змінної. Може хтось уточнить?


2
1) У вашій біваріантній формулі Пірсона, якщо "Е" (означає у вашому коді) передбачає поділ на n, тоді st. відхилення також повинні базуватися на n (не n-1). 2) Нехай усі три змінні будуть однаковою змінною. У цьому випадку ми очікуємо, що кореляція складе 1 (як у двозначному випадку), але на жаль ...
ttnphns

Для триваріантного нормального розподілу він дорівнює нулю, незалежно від того, які співвідношення.
Ray Koopman

1
Я дійсно думаю, що заголовок виграв би від зміни на "Аналогія Пірсона кореляції для 3 змінних" або подібного - це зробить посилання тут більш інформативними
Silverfish

1
@Silverfish Я згоден! Я оновив назву, дякую.
PascalVKooten

Відповіді:


12

Це є дійсно що - то. Щоб це з’ясувати, нам потрібно вивчити те, що ми знаємо про кореляцію.

  1. Кореляційна матриця векторнозначной випадкової величини X=(X1,X2,,Xp) є ковариационной матрицею, або просто «дисперсії» стандартизованої версії X . Тобто кожен Xi замінюється його перегляненою, переробленою версією.

  2. Коваріація Xi та Xj - це очікування добутку їх централізованих версій. Тобто, записуючи Xi=XiE[Xi] і Xj=XjE[Xj] , ми маємо

    Cov(Xi,Xj)=E[XiXj].
  3. Дисперсія , яку я напишу Var ( X ) , не є одиничним числом. Це масив значень Var ( X ) i j = Cov ( X i , X j ) .XVar(X)

    Var(X)ij=Cov(Xi,Xj).
  4. Спосіб думати про коваріантність передбачуваного узагальнення - вважати її тензором . Це означає, що це ціла сукупність величин , індексованих i і j, починаючи від 1 до p , значення яких змінюються особливо простим передбачуваним способом, коли X зазнає лінійного перетворення. Зокрема, нехай Y = ( Y 1 , Y 2 , ... , Y q ) - ще одна випадкова величина, що оцінюється за векторною ознакоюvijij1pXY=(Y1,Y2,,Yq)

    Yi=j=1paijXj.

    Константи (iіj-індекси-jне є потужністю) утворюютьмасивq×pA=(aaijijjq×p,j=1,,pіi=1,,q. Лінійність очікування передбачаєA=(aij)j=1,,pi=1,,q

    Var(Y)ij=aikajlVar(X)kl.

    У матричних позначеннях

    Var(Y)=AVar(X)A.
  5. Усі компоненти насправді є універсальними дисперсіями, обумовленими ідентичністю поляризаціїVar(X)

    4Cov(Xi,Xj)=Var(Xi+Xj)Var(XiXj).

    Це говорить нам про те, що якщо ви розумієте варіації одновимірних випадкових змінних, ви вже розумієте коваріації біваріантних змінних: вони є "просто" лінійними комбінаціями дисперсій.


Вираз у питанні є абсолютно аналогічним: змінні були стандартизовані, як у ( 1 ) . Ми можемо зрозуміти, що це означає, розглядаючи, що це означає для будь-якої змінної, стандартизованої чи ні. Ми замінили б кожен X i його центрованою версією, як у ( 2 ) , і сформували величини, що мають три індекси,Xi(1)Xi(2)

μ3(X)ijk=E[XiXjXk].

Це центральні (багатоваріантні) моменти ступеня3 . Як і в , вони утворюють тензор: коли Y = A X , то(4)Y=AX

μ3(Y)ijk=l,m,nailajmaknμ3(X)lmn.

Індекси в цій потрійній сумі знаходяться на всіх комбінаціях цілих чисел від до p .1p

Аналогом ідентичності поляризації є

24μ3(X)ijk=μ3(Xi+Xj+Xk)μ3(XiXj+Xk)μ3(Xi+XjXk)+μ3(XiXjXk).

У правій частині позначає (однофакторний) центральний третій момент: очікуване значення куба відцентрованої змінної. Коли змінні стандартизовані, цей момент зазвичай називають косою . Відповідно, ми можемо думати про ц 3 ( X ) як є багатовимірний перекіс з X . Це тензор третього рангу (тобто з трьома індексами), значення яких є лінійними комбінаціями похилих різних сум і різниць X i . Якби ми шукали інтерпретації, то ми б вважали ці компоненти мірними в pμ3μ3(X)XXipрозміри, незалежно від вимірювання косості в одному вимірі. У багатьох випадках

  • Перші моменти вимірюють місце розподілу;

  • Другі моменти (дисперсія-коваріаційна матриця) вимірюють її поширення ;

  • Стандартизовані другі моменти (кореляції) вказують на те, як змінюється спред у -вимірному просторі; іp

  • Для вимірювання форми розподілу відносно його поширення приймаються стандартизовані третій та четвертий моменти .

Щоб детальніше розглянути, що може означати багатовимірна "форма", зауважив, що ми можемо розуміти PCA як механізм зменшення будь-якого багатофакторного розподілу до стандартної версії, розташованої біля джерела, і рівного розповсюдження у всіх напрямках. Після виконання PCA, забезпечить найпростіші показники багатовимірної форми розподілу. Ці ідеї однаково добре застосовуються до даних, як до випадкових змінних, оскільки дані завжди можна проаналізувати з точки зору їх емпіричного розподілу.μ3


Довідково

Алан Стюарт та Дж. Кіт Орд, п'ята редакція передової теорії статистики Кендала , Том 1: Теорія розподілу ; Глава 3, Моменти та сукупності . Oxford University Press (1987).


Додаток: Доказ ідентичності поляризації

Нехай - алгебраїчні змінні. Існує 2 n способів додавання і віднімання всіх n з них. Коли ми збільшимо кожну з цих сум і різниць до n- ї потужності, підберемо відповідний знак для кожного з цих результатів і додамо їх, ми отримаємо кратне x 1 x 2x n .x1,,xn2nnnthx1x2xn

Більш формально, нехай - множина всіх n -парів ± 1 , так що будь-який елемент s S є вектором s = ( s 1 , s 2 , , s n ), чий коефіцієнти всі ± 1 . Претензія єS={1,1}nn±1sSs=(s1,s2,,sn)±1

(1)2nn!x1x2xn=sSs1s2sn(s1x1+s2x2++snxn)n.

Indeed, the Multinomial Theorem states that the coefficient of the monomial x1i1x2i2xnin (where the ij are nonnegative integers summing to n) in the expansion of any term on the right hand side is

(ni1,i2,,in)s1i1s2i2snin.

In the sum (1), the coefficients involving x1i1 appear in pairs where one of each pair involves the case s1=1, with coefficient proportional to s1 times s1i1, equal to 1, and the other of each pair involves the case s1=1, with coefficient proportional to 1 times (1)i1, equal to (1)i1+1. They cancel in the sum whenever i1+1 is odd. The same argument applies to i2,,in. Consequently, the only monomials that occur with nonzero coefficients must have odd powers of all the xi. The only such monomial is x1x2xn. It appears with coefficient (n1,1,,1)=n! in all 2n terms of the sum. Consequently its coefficient is 2nn!, QED.

We need take only half of each pair associated with x1: that is, we can restrict the right hand side of (1) to the terms with s1=1 and halve the coefficient on the left hand side to 2n1n! . That gives precisely the two versions of the Polarization Identity quoted in this answer for the cases n=2 and n=3: 2212!=4 and 2313!=24.

Of course the Polarization Identity for algebraic variables immediately implies it for random variables: let each xi be a random variable Xi. Take expectations of both sides. The result follows by linearity of expectation.


Well done on explaining so far! Multivariate skewness kind of makes sense. Could you perhaps add an example that would show the importance of this multivariate skewness? Either as an issue in a statistical models, or perhaps more interesting, what real life case would be subject to multivariate skewness :)?
PascalVKooten

3

Hmmm. If we run...

a <- rnorm(100);
b <- rnorm(100);
c <- rnorm(100)
mean((a-mean(a))*(b-mean(b))*(c-mean(c)))/
  (sd(a) * sd(b) * sd(c))

it does seem to center on 0 (I haven't done a real simulation), but as @ttnphns alludes, running this (all variables the same)

a <- rnorm(100)
mean((a-mean(a))*(a-mean(a))*(a-mean(a)))/
  (sd(a) * sd(a) * sd(a))

also seems to center on 0, which certainly makes me wonder what use this could be.


2
The nonsense apparently comes from the fact that sd or variance is a function of squaring, as is covariance. But with 3 variables, cubing occurs in the numerator while denominator remains based on originally squared terms
ttnphns

2
Is that the root of it (pun intended)? Numerator and denominator have the same dimensions and units, which cancel, so that alone doesn't make the measure poorly formed.
Nick Cox

3
@Nick That's right. This is simply one of the multivariate central third moments. It is one component of a rank-three tensor giving the full set of third moments (which is closely related to the order-3 component of the multivariate cumulant generating function). In conjunction with the other components it could be of some use in describing asymmetries (higher-dimensional "skewness") in the distribution. It's not what anyone would call a "correlation," though: almost by definition, a correlation is a second-order property of the standardized variable.
whuber

1

If You need to calculate "correlation" between three or more variables, you could not use Pearson, as in this case it will be different for different order of variables have a look here. If you are interesting in linear dependency, or how well they are fitted by 3D line, you may use PCA, obtain explained variance for first PC, permute your data and find probability, that this value may be to to random reasons. I've discuss something similar here (see Technical details below).

Matlab code

% Simulate our experimental data
x=normrnd(0,1,100,1);
y=2*x.*normrnd(1,0.1,100,1);
z=(-3*x+1.5*y).*normrnd(1,2,100,1);
% perform pca
[loadings, scores,variance]=pca([x,y,z]);
% Observed Explained Variance for first principal component
OEV1=variance(1)/sum(variance)
% perform permutations
permOEV1=[];
for iPermutation=1:1000
    permX=datasample(x,numel(x),'replace',false);
    permY=datasample(y,numel(y),'replace',false);
    permZ=datasample(z,numel(z),'replace',false);
    [loadings, scores,variance]=pca([permX,permY,permZ]);
    permOEV1(end+1)=variance(1)/sum(variance);
end

% Calculate p-value
p_value=sum(permOEV1>=OEV1)/(numel(permOEV1)+1)
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.