Чому кореляційна матриця повинна бути позитивною напіввизначеною і що це означає бути чи не бути позитивною напіввизначеною?


34

Я досліджував значення позитивної напіввизначеної властивості кореляційних або коваріаційних матриць.

Я шукаю будь-яку інформацію про

  • Визначення позитивної напіввизначеності;
  • Його важливі властивості, практичні наслідки;
  • Наслідок негативного детермінанта, впливу на результати багатоваріантного аналізу чи моделювання тощо.

5
Ви хочете , щоб зрозуміти , що пів-визначеність є , або ви хочете знати , чому кореляційні матриці повинні бути полуопределеннимі, або ви хочете знати , що важливі результати випливають з цієї властивості?
whuber

4
Якщо кореляційні матриці, де не напівпозитивні, то ви можете отримати відхилення, які були від'ємними.

Я трохи відредагував ваше запитання, будь ласка, перевірте це. Також зауважте, що матриця з парною кількістю негативних власних значень як і раніше матиме позитивний визначник.
ttnphns

Коваріаційна матриця НЕ завжди дорівнює кореляційній матриці! Коваріація враховує нормалізовані змінні, тоді як кореляційна матриця цього не робить.
Маной Кумар

1
Супутні питання: Чи є кожна матриця коваріації позитивною? розглядає ширший випадок коваріаційних матриць, кореляційні матриці яких є окремим випадком; також є чи кожна кореляційна матриця неотрицательно певної? і чи визначена кожна кореляційна матриця позитивною?
Срібна рибка

Відповіді:


38

Варіантність зваженої суми випадкових величин повинна бути негативною для всіх варіантів реальних чисел a i . Оскільки дисперсія може бути виражена як var ( i a i X i ) = i j a i a j cov ( X i , X j ) = i j a i a j Σ i , j ,iaiXiai

var(iаiХi)=ijаiаjков(Хi,Хj)=ijаiаjΣi,j,
маємо, що матриця коваріації повинна бути позитивною напівдефінітією (яку іноді називають невід’ємною визначеною). Нагадаємо, що матрицю C називають позитивною напівкінцевою тоді і лише тоді, коли i j a i a j C i , j0Σ=[Σi,j]С
ijaiajCi,j0ai,ajR.

Дякую, я видалив свою нижчу долю, але я не подав заявку, оскільки вона не відповідає практичним наслідкам. Скажімо, у мене є матриця, яка не є позитивно визначеною (належить до прикладу модифікації "експертом"). Що буде, якщо я використовую його для калібрування та / або моделювання даних? Зокрема, це реальна проблема, коли намагаються вивчити велику суму і є лише кілька негативних власних значень? Що було б ефективним алгоритмом для перетворення непозитивної напіввизначеної матриці кореляції в позитивну напіввизначену? Який був би вплив цього алгоритму?
lcrmorin

@Were_cat Дякуємо за скасування нижньої позиції.
Діліп Сарват

Не могли б ви пояснити першу рівність у першому рівнянні?
Vivek Subramanian

1
@VivekSubramanian Variance - це особливий випадок функції коваріації: а функція коваріації є білінеарною (означає, що це лінійна функція щодо кожного аргументу: cov ( i a i X i , Y )var(X)=cov(X,X)
cov(iaiXi,Y)=iaicov(Xi,Y)cov(X,ibjYj,)=jbjcov(X,Yj)

18

Відповідь досить проста.

Кореляційна матриця визначається таким чином:

X=[x1,x2,...,xn]m×nmn

Xb=[(x1μ1e)s1,(x2μ2e)s2,(x3μ3e)s3,...] as the matrix of normalized data, with μ1 being mean for the variable 1, μ2 the mean for variable 2, etc., and s1 the standard deviation of variable 1, etc., and e is a vector of all 1s.

The correlation matrix is then

C=XbXb

A matrix A is positive semi-definite if there is no vector z such that zAz<0.

Suppose C is not positive definite. Then there exists a vector w such that wCw<0.

However (wCw)=(wXbXbw)=(Xbw)(Xbw)=z12+z22..., where z=Xbw, and thus wCw is a sum of squares and therefore cannot be less than zero.

So not only the correlation matrix but any matrix U which can be written in the form VV is positive semi-definite.


2
This is by far the clearest most concise and useful answer. Thanks !
Yohan Obadia

12

(Possible looseness in reasoning would be mine. I'm not a mathematician: this is a depiction, not proof, and is from my numeric experimenting, not from books.)

  1. A positive semidefinite (psd) matrix, also called Gramian matrix, is a matrix with no negative eigenvalues. Matrix with negative eigenvalues is not positive semidefinite, or non-Gramian. Both of these can be definite (no zero eigenvalues) or singular (with at least one zero eigenvalue). [Word "Gramian" is used in several different meanings in math, so perhaps should be avoided.]
  2. In statistics, we usually apply these terms to a SSCP-type matrix, also called scalar product matrix. Correlation or covariance matrices are particular cases of such matrix.
  3. Any scalar product matrix is a summary characteristic of some multivariate data (a cloud). For example, given n cases X p variables data, we could compute pXp covariance matrix between the variables or nXn covariance matrix between the cases. When you compute it from real data, the matrix will always be Gramian. You may get non-Gramian (non-psd) matrix if (1) it is similarity matrix measured directly (i.e. not computed from the data) or the similarity measure isn't SSCP-type; (2) the matrix values was incorrectly entered; (3) the matrix is in fact Gramian but is (or so close to be) singular that sometimes the spectral method of computing eigenvalues produces tiny negative ones in place of true zero or tiny positive ones.
  4. An alternative and equivalent summary for the cloud is the matrix of euclidean distances. A scalar product (such as covariance) between a pair of items and the corresponding squared euclidean distance between them are tied by the law of cosines (cosine theorem, look at the picture there): d122=h12+h222s12, where the s is the scalar product and the h's are the distances of the two items from the origin. In case of covariance matrix between variables X and Y this formula looks as dxy2=σx2+σy22covxy.
  5. As interim conclusion: a covariance (or correlation or other scalar product) matrix between some m items is a configuration of points embedded in Euclidean space, so euclidean distances are defined between all these m points.
  6. Now, if [point 5] holds exactly, then the configuration of points is truly euclidean configuration which entails that the scalar product matrix at hand (e.g. the covariance one) is Gramian. Otherwise it is non-Gramian. Thus, to say "mXm covariance matrix is positively semi-definite" is to say "the m points plus the origin fit in Euclidean space perfectly".
  7. What are possible causes or versions of non-Gramian (non-Euclidean) configuration? The answers follow upon contemplating [point 4].
    • Cause 1. Evil is among the points themselves: mXm distance matrix isn't fully euclidean. Some of the pairwise distances d are such that they cannot agree with the rest of the points in Euclidean space. See Fig1.
    • Cause 2. There is general (matrix-level) mismatch between h's and d's. For example, with fixed d's and some h's given, the other h's must only vary within some bounds in order to stay in consent with Euclidean space. See Fig2.
    • Cause 3. There is localized (pair-level) mismatch between a d and the pair of corresponding h's connected to those two points. Namely, the rule of triangular inequality is violated; that rule demands h1+h2d12|h1h2|. See Fig3.
  8. To diagnose the cause, convert the non-Gramian covariance matrix into distance matrix using the above law of cosines. Do double-centering on it. If the resultant matrix has negative eigenvalues, cause 1 is present. Else if any |covij|>σiσj, cause 3 is present. Else cause 2 is present. Sometimes more than one cause get along in one matrix.

Fig1.

Fig1

Fig2.

Fig2

Fig3.

Fig3


2
Point 6 needs demonstration: you have shown that a matrix of squared Euclidean distances is p-d, but you assert without proof that to each p-d matrix corresponds a Euclidean configuration of points. Also you haven't connected your definition of p-d ("no negative eigenvalues") to any of your subsequent characterizations. The key idea comes at the end (point 8): a p-d matrix can be used to define a distance. Logically, this is where you should begin the analysis.
whuber

@whuber: Thank you for the critical appraisal. I'm afraid, when it comes to mathematically proving something, I sink. I've reported part of my practical experience (I said that); the answer wasn't really an analytical sequence. Wouldn't you like then to add your own answer that can correct/improve mine? It might turn out a valuable aid. Or, you are free to work on my text to improve it if you find it not downright futile.
ttnphns

P.S. My point 8 implies that since double centering anchors a configuration of points to its centroid, this operation itself does not introduce non-euclidity (it itroduces only singularity because the new point, centre, belongs to the same space). Thence we can check if the initial configuration was euclidean. Is that not correct?
ttnphns
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.