Достатні та необхідні умови для нульового власного значення кореляційної матриці

11

Враховуючи випадкової величини , з розподілом ймовірності , кореляційна матриця є позитивною , тобто її власними значеннями є позитивними або нульовими. $n$ $X_i$ $P(X_1,\ldots,X_n)$ $C_{ij}=E[X_i X_j]-E[X_i]E[X_j]$

Мене цікавлять умови на , необхідні та / або достатні, щоб мав нульові власні значення. Наприклад, достатньою умовою є те, що випадкові величини не є незалежними: для деяких реальних чисел . Наприклад, якщо , то є власний вектор з нульовим власним значенням. Якщо ми маємо незалежні лінійні обмежень на «S такого типу, це буде означати нуля власних значень. $P$ $C$ $m$ $\sum_i u_i X_i=0$ $u_i$ $P(X_1,\ldots,X_n)=\delta(X_1-X_2)p(X_2,\ldots,X_n)$ $\vec u=(1,-1,0,\ldots,0)$ $C$ $m$ $X_i$ $m$

Існує принаймні одна додаткова (але тривіальна) можливість, коли для деякої (тобто ), оскільки в цьому У випадку є стовпець і рядок нулів: . Як це не дуже цікаво, я припускаю, що розподіл ймовірностей не є такою формою. $X_a=E[X_a]$ $a$ $P(X_1,\ldots,X_n)\propto\delta(X_a-E[X_a])$ $C_{ij}$ $C_{ia}=C_{ai}=0,\,\forall i$

Моє запитання: чи є лінійні обмеження єдиним способом викликати нульові власні значення (якщо ми забороняємо тривіальне виключення, наведене вище), чи можуть нелінійні обмеження випадкових змінних також генерувати нульові власні значення ? $C$

correlation

— Адам
джерело

1

За визначенням, колекція векторів, що включає нульовий вектор, лінійно залежить, тому ваша додаткова можливість не є чимось новим або іншим. Чи не могли б ви пояснити , що ви маєте в виду «мають

m

$m$ власних»? Це схоже на якусь типографічну помилку.

— whuber

@whuber: так, друкарня. Виправлено. Я думаю, що дві умови різні: одна стосується співвідношення змінних, а інша - про ймовірність лише змінної (а саме

p (X_{a}) = δ (X_{a} - E (X_{a}))

$p(X_a)=\delta(X_a-E(X_a))$ ).

— Адам

Формулювання вашого запитання заплутане. Це схоже на елементарну теорему лінійної алгебри, але посилання на "незалежні" випадкові величини дозволяють припустити, що це може бути зовсім інше. Чи правильно було б розуміти, що кожен раз, коли ви використовуєте "незалежний", ви маєте на увазі в сенсі лінійної незалежності, а не в сенсі (статистично) незалежних випадкових величин? Ваша посилання на "відсутні дані" ще більше заплутує, тому що це говорить про те, що ваші "випадкові змінні" дійсно можуть означати лише стовпці матриці даних. Було б добре, щоб ці значення були уточнені.

— whuber

@whuber: я змінив питання. Сподіваємось, це зрозуміліше.

— Адам

Умова незалежності

\sum_{i} u_{i} X_{i} = 0

$\sum_i u_i X_i=0$ не обов'язково повинна бути дорівнює нулю (будь-яка константа буде робити), якщо середнє значення кожного

X_{i}

$X_i$ дорівнює нулю.

— Секст Емпірік

6

Можливо, спростивши позначення, ми можемо викласти сутнісні ідеї. Виявляється, нам не потрібно включати очікування чи складні формули, адже все суто алгебраїчно.

Алгебраїчна природа математичних об'єктів

Питання стосується зв’язків між (1) коваріаційною матрицею скінченного набору випадкових величин та (2) лінійних відношень між цими змінними, що розглядаються як вектори . $X_1, \ldots, X_n$

Векторний простір , про який йде мова безліч всіх кінцево-дисперсія випадкових величин (в будь-якому імовірнісний просторі ) по модулю підпростору майже напевно постійних змінних, позначить (Тобто, ми вважаємо дві випадкові величини і однаковими векторами, коли є нульовий шанс, що відрізняється від свого очікування.) Ми маємо справу лише з кінцевим розмірним векторним простором породженим $(\Omega,\mathbb P)$ $\mathcal{L}^2(\Omega,\mathbb P)/\mathbb R.$ $X$ $Y$ $X-Y$ $V$ $X_i,$ саме це робить це алгебраїчною проблемою, а не аналітичною.

Що нам потрібно знати про відхилення

- це не просто векторний простір: цеквадратичний модуль,оскільки він оснащений дисперсією. Все, що нам потрібно знати про відхилення, - це дві речі: $V$

Дисперсія є скалярною функцією з властивістю для всіх векторів $Q$ $Q(aX)=a^2Q(X)$ $X.$
Дисперсія є невиродженою.

Другий потребує певного пояснення. визначає "крапковий добуток", який є симетричною білінеарною формою, заданою $Q$

X \cdot Y = \frac{1}{4} (Q (X + Y) - Q (X - Y)) .

$X\cdot Y = \frac{1}{4}\left(Q(X+Y) - Q(X-Y)\right).$

(Це, звичайно , нічого, крім коваріації змінних і ) Вектори і є ортогональними , якщо їх скалярний добуток дорівнює ортогональное доповнення будь-якого безлічі векторів складається з усіх векторів , ортогональних до кожного елементу з написана $X$ $Y.$ $X$ $Y$ $0.$ $\mathcal A \subset V$ $\mathcal A,$

A^{0} = {v \in V ∣ a . v = 0 for all v \in V} .

$\mathcal{A}^0 = \{v\in V\mid a . v = 0\text{ for all }v \in V\}.$

Це явно векторний простір. Коли , є невиродженим. $V^0 = \{0\}$ $Q$

Дозвольте мені довести, що дисперсія насправді є невиродженою, хоча це може здатися очевидним. Припустимо, - ненульовий елемент Це означає для всіх рівнозначно, $X$ $V^0.$ $X\cdot Y = 0$ $Y\in V;$

Q (X + Y) = Q (X - Y)

$Q(X+Y) = Q(X-Y)$

для всіх векторів Прийняття дає $Y.$ $Y=X$

4 Q (X) = Q (2 X) = Q (X + X) = Q (X - X) = Q (0) = 0

$4 Q(X) = Q(2X) = Q(X+X) = Q(X-X) = Q(0) = 0$

і, отже, Однак ми знаємо (можливо, використовуючи Нерівність Чебишева), що єдині випадкові величини з нульовою дисперсією майже напевно постійні, що ототожнює їх з нульовим вектором у QED. $Q(X)=0.$ $V,$

Інтерпретація запитань

Повертаючись до запитань, у попередній нотації матриця коваріації випадкових змінних є лише регулярним масивом усіх їх точкових продуктів,

T = (X_{i} \cdot X_{j}) .

$T = (X_i\cdot X_j).$

Існує хороший спосіб подумати про : він визначає лінійне перетворення на звичайним способом, передаючи будь-який вектор у вектор , компонент заданий правилом множення матриці $T$ $\mathbb{R}^n$ $x=(x_1, \ldots, x_n)\in\mathbb{R}^n$ $T(x)=y=(y_1, \ldots, x_n)$ $i^\text{th}$

y_{i} = \sum_{j = 1}^{n} (X_{i} \cdot X_{j}) x_{j} .

$y_i = \sum_{j=1}^n (X_i\cdot X_j)x_j.$

Ядро цього лінійного перетворення є подпространством він посилає до нуля:

Ker (T) = {x \in R^{n} ∣ T (x) = 0} .

$\operatorname{Ker}(T) = \{x\in \mathbb{R}^n\mid T(x)=0\}.$

Вищенаведене рівняння слід , що , коли для кожного $x\in \operatorname{Ker}(T),$ $i$

0 = y_{i} = \sum_{j = 1}^{n} (X_{i} \cdot X_{j}) x_{j} = X_{i} \cdot (\sum_{j} x_{j} X_{j}) .

$0 = y_i = \sum_{j=1}^n (X_i\cdot X_j)x_j = X_i \cdot \left(\sum_j x_j X_j\right).$

Так як це вірно для кожного воно справедливо для всіх векторів , натягнутих на , а саме: сам по собі. Отже, коли вектор, заданий лежить у Оскільки дисперсія є невиродженою, це означає Тобто описує лінійну залежність серед початкових випадкових величин. $i,$ $X_i$ $V$ $x\in\operatorname{Ker}(T),$ $\sum_j x_j X_j$ $V^0.$ $\sum_j x_j X_j = 0.$ $x$ $n$

Ви можете легко перевірити, що цей ланцюжок міркувань є оборотним:

Лінійні залежності між в якості векторів знаходяться у взаємно однозначна відповідність з елементами ядра $X_j$ $T.$

(Пам’ятайте, це твердження все ще розглядає як визначене до постійного зрушення місця розташування - тобто як елементи більше, ніж просто випадкові змінні.) $X_j$ $\mathcal{L}^2(\Omega,\mathbb P)/\mathbb R$

Нарешті, за визначенням, власне значення з є будь-яким скалярним , для яких існує ненульовий вектор з При є власним значенням, простір власних векторів , асоційованих (очевидно) ядро $T$ $\lambda$ $x$ $T(x) = \lambda x.$ $\lambda=0$ $T.$

Підсумок

Ми прибули у відповідь на питання: набір лінійних залежностей випадкових величин, ква елементи відповідає один до одного з ядром їх ковариационной матрицею Це так, тому що дисперсія - це невиражена квадратична форма. Ядро також є власним простором, пов'язаним з нульовим власним значенням (або просто нульовим підпростором, коли немає нульового власного значення). $\mathcal{L}^2(\Omega,\mathbb P)/\mathbb R,$ $T.$

Довідково

Я значною мірою прийняв позначення та частину мови глави IV в

Жан-П'єр Серре, курс з арифметики. Спрингер-Верлаг 1973.

— дзижчати
джерело

Ого, це чудово! Просто питання , щоб переконатися , що я все розумію: коли ви пишете «

в якості векторів» не означає збір випадкових величин в векторі (тобто

), або ви ? Якщо я маю рацію, я здогадуюсь, що ви збираєте можливі значення випадкової величини

у вектор, тоді як розподіл ймовірностей приховано у визначенні дисперсії, правда?

X_{j}

$X_j$

\vec{X} = (X_{1}, \dots, X_{n})

$\vec X=(X_1,\ldots,X_n)$

X_{i}

$X_i$

— Адам

Я думаю, що головний аспект, який є не зовсім зрозумілим, полягає в наступному (який може просто показати мою відсутність формальних знань теорії ймовірностей): ви, схоже, показуєте, що якщо є власне значення 0, то, наприклад,

. Це обмеження не стосується розподілу ймовірностей

, який приховано в

(я думаю, це розумний момент щодо цієї демонстрації). Але що це означає мати

без посилання на

? Або просто випливає, що

X_{1} = X_{2}

$X_1=X_2$

P

$P$

Q

$Q$

X_{1} = X_{2}

$X_1=X_2$

P

$P$

P \propto δ (X_{1} - X_{2})

$P\propto \delta(X_1-X_2)$ , але як тоді ми знаємо, що це повинна бути лінійна комбінація і у дельта-функції $X_1$ $X_2$ ?

— Адам,

Боюсь, я не розумію, як ти використовуєш "дельта-функцію" в цьому контексті, Адаме. Це частково тому, що я не бачу в цьому потреби, а частково тому, що позначення неоднозначні: чи це, наприклад, дельта Кронекера чи дельта Дірака?

— whuber

Це був би Kronecker або Dirac залежно від змінних (дискретних або безперервних). Ці дельти можуть бути частиною міри інтеграції, наприклад, я інтегрую над 2-на-2 матриці

(так чотири реальні змінні

,

і

, з деякою вагою (скажімо,

), або я проинтегрировать підгрупу. Якщо це симетричні матриці (маючи на увазі, наприклад ,

M

$M$

X_{1}

$X_1$

X_{2}

$X_2$

X_{3}

$X_3$

X_{4}

$X_4$

P = \exp (- t r (M . M^{T}))

$P=\exp(-tr(M.M^T))$

X_{2} = X_{3}

$X_2=X_3$ ), Я можу формально нав'язати, що помноживши

на

. Це було б лінійним обмеженням. Приклад нелінійного обмеження наведений у коментарях нижче відповіді Мартійна Ветерингса.

P

$P$

δ (X_{1} - X_{2})

$\delta(X_1-X_2)$

— Адам

(продовження) Питання полягає в тому, що може нелінійне обмеження, яке я можу додати до своїх змінних, може викликати власне значення 0. З ваших відповідей, схоже, це: лише нелінійне обмеження, що передбачає лінійне обмеження (як це показано в коментарях нижче відповіді Мартійна Ветерінга). Можливо, проблема полягає в тому, що мій спосіб думати про проблему - з точки зору фізика, і я намагаюся пояснити це іншою мовою (я думаю, тут є правильне місце, щоб задати це питання, не фізика.SE).

— Адам

5

Лінійна незалежність є не просто достатньою, але й необхідною умовою

Щоб показати, що матриця дисперсії-коваріації має власні значення, що дорівнюють нулю, якщо і лише тоді, коли змінні не є лінійно незалежними, залишається лише показати, що "якщо матриця має власні значення, рівні нулю, то змінні не є лінійно незалежними".

Якщо у вас є нульове власне значення для то існує деяка лінійна комбінація (визначена власним вектором ) $C_{ij} = \text{Cov}(X_i,X_j)$ $v$

Y = \sum_{i = 1}^{n} v_{i} (X_{i})

$Y = \sum_{i=1}^n v_i (X_i)$

такий як

\begin{array}{rcl} Cov (Y, Y) & = & \sum_{i = 1}^{n} \sum_{j = 1}^{n} v_{i} v_{j} Cov (X_{i}, X_{j}) \\ = & \sum_{i = 1}^{n} v_{i} \sum_{j = 1}^{n} v_{j} C_{i j} \\ = & \sum_{i = 1}^{n} v_{i} \cdot 0 \\ = & 0 \end{array}

$\begin{array}{rcl} \text{Cov}(Y,Y) &=& \sum_{i=1}^n \sum_{j=1}^n v_i v_j \text{Cov}(X_i,X_j) \\ &=&\sum_{i=1}^n v_i\sum_{j=1}^n v_j C_{ij} \\ &= &\sum_{i=1}^n v_i \cdot 0 \\ &=& 0 \end{array}$

що означає, що має бути константою, і, таким чином, змінні повинні додати до константи і є або самі константи (тривіальний випадок), або не лінійно незалежні. $Y$ $X_i$

^{- перший рядок у рівнянні з зумовлений властивістю коваріації $\text{Cov}(Y,Y)$}

Cov (a U + b V, c W + d X) = a c Cov (U, W) + b c Cov (V, W) + a d Cov (U, X) + b d Cov (V, X)

$\scriptsize\text{Cov}(aU+bV,cW+dX) = ac\,\text{Cov}(U,W) + bc\,\text{Cov}(V,W) +ad\, \text{Cov}(U,X) + bd \,\text{Cov}(V,X)$

^{- крок від другого до третього рядка обумовлений властивістю нульового власного значення}

\sum_{j = 1}^{n} v_{j} C_{i j} = 0

$\scriptsize \sum_{j=1}^nv_jC_{ij} = 0$

Нелінійні обмеження

Отже, оскільки лінійні обмеження є необхідною умовою (не просто достатньою), нелінійні обмеження будуть актуальними лише тоді, коли вони опосередковано передбачають (необхідне) лінійне обмеження.

Насправді між власними векторами існує пряма відповідність, пов'язана з нульовим власним значенням, та лінійними обмеженнями.

C \cdot v = 0 ⟺ Y = \sum_{i = 1}^{n} v_{i} X_{i} = const

$C \cdot v = 0 \iff Y = \sum_{i=1}^n v_i X_i = \text{const}$

Таким чином, нелінійні обмеження, що ведуть до нульового власного значення, повинні разом у поєднанні генерувати деяке лінійне обмеження.

Як можуть нелінійні обмеження призводити до лінійних обмежень

Ваш приклад у коментарях може інтуїтивно показати це, як нелінійні обмеження можуть призвести до лінійних обмежень, перевернувши виведення. Наступні нелінійні обмеження

\begin{array}{lcr} a^{2} + b^{2} & = & 1 \\ c^{2} + d^{2} & = & 1 \\ a c + b d & = & 0 \\ a d - b c & = & 1 \end{array}

$\begin{array}{lcr} a^2+b^2&=&1\\ c^2+d^2&=&1\\ ac + bd &=& 0 \\ ad - bc &=& 1 \end{array}$

можна звести до

\begin{array}{lcr} a^{2} + b^{2} & = & 1 \\ c^{2} + d^{2} & = & 1 \\ a - d & = & 0 \\ b + c & = & 0 \end{array}

$\begin{array}{lcr} a^2+b^2&=&1\\ c^2+d^2&=&1\\ a-d&=&0 \\ b+c &=& 0 \end{array}$

You could inverse this. Say you have non-linear plus linear constraints, then it is not strange to imagine how we can replace one of the linear constraints with a non-linear constraint, by filling the linear constraints into the non-linear constraints. E.g when we substitute $a=d$ and $b=-c$ in the non-linear form $a^2+b^2=1$ then you can make another relationship $ad-bc=1$ . And when you multiply $a=d$ and $c=-b$ then you get $ac=-bd$ .

— Sextus Empiricus
джерело

I guess this (and the answer by whuber) is an indirect answer to my question (which was : "is linear dependence the only way to obtain a zero eigenvalue") in this way : even if the dependence between the random variables is non-linear, it can always be rewritten as a linear dependence by just writing

Y = \sum_{i} ν_{i} X_{i}

$Y=\sum_i \nu_i X_i$ . Although I was really looking for way to characterize the possible non-linear constraints themselves, I guess it is nevertheless a useful result.

— Adam

Yes, I know... what I'm saying is that if there is a non-linear dependence and there is a zero eigenvalue, then by your answer, it means that the non-linear dependence can be "factored" in some way into a linear dependence. It is a weaker version of what I was looking for, but still something.

— Adam

Your a giving an example that does not work, which does not mean that it cannot be the case...

— Adam

Here is a counter-example of what your saying (if you think it is not, then it might help us find what is wrong with my formulation of the problem :) ) : Take a 2-by-2 random matrix

M

$M$ , with the non-linear constraint

M . M^{T} = 1

$M.M^T=1$ and

det M = 1

$\det M=1$ . These 3 non-linear constraint can be rewritten in terms of 2 linear constraints, and one linear : meaning that the covariance matrix has two 0 eigenvector. Remove the constraint

det M = 1

$\det M=1$ , and they disappear.

— Adam

M_{11} = X_{1}

$M_{11}=X_1$ ,

M_{12} = X_{2}

$M_{12}=X_2$ ,

M_{21} = X_{3}

$M_{21}=X_3$ and

M_{22} = X_{4}

$M_{22}=X_4$ . The constraints are

X_{1}^{2} + X_{2}^{2} = 1

$X_1^2+X_2^2=1$ ,

X_{3}^{2} + X_{4}^{2} = 1

$X_3^2+X_4^2=1$ ,

X_{1} X_{3} + X_{2} X_{4} = 0

$X_1 X_3+X_2 X_4=0$ (only two are independent). They do not imply a zero eigenvalue. However, adding

X_{1} X_{4} - X_{2} X_{3} = 1

$X_1 X_4-X_2 X_3=1$ does imply two eigenvectors with 0 eigenvalues.

— Adam

2

Припустимо $C$ має власний вектор $v$ з відповідним власним значенням $0$ , тоді $\operatorname{var}(v^T X) = v^T Cv = 0$ . Таким чином, по нерівності Чебишева $v^TX$ майже напевно постійний і дорівнює $v^T E [X]$ . Тобто кожному нульовому власному значенню відповідає лінійне обмеження, а саме $v^T X = v^T E[X]$ . Не потрібно розглядати будь-які особливі випадки.

Таким чином, робимо висновок:

"є лінійними обмеженнями - єдиним способом спонукати нульові власні значення [?]"

Так.

"Чи можуть нелінійні обмеження на випадкові величини також генерувати нульові власні значення C?"

Так, якщо вони передбачають лінійні обмеження.

— ekvall
джерело

Я згоден. Я сподівався, що можна бути більш конкретним щодо виду нелінійних обмежень, але я здогадуюсь, що це важко зробити краще, якщо ми не вкажемо обмеження.

— Адам,

2

Марикс коваріації $C$ з $X$ є симетричним, тому можна діагностувати його як $C=Q\Lambda Q^T$ , з власними значеннями в діагональній матриці $\Lambda.$ Переписавши це як $\Lambda=Q^TCQ$ , rhs - матриця коваріації $Q^TX$ , тому нульові власні значення на lhs відповідають лінійним комбінаціям $X$ з виродженими розподілами.

— Hasse1987
джерело

Це дуже приємний короткий опис, але як ми могли зробити це більш інтуїтивним

Q^{T} C Q = cov (Q^{T} X)

$Q^TCQ = \text{cov}(Q^TX)$ ?

— Секст Емпірік