Чи є компоненти PCA багатоваріантних даних Гаусса статистично незалежними?


16

Чи є компоненти PCA (в основному аналізі компонентів) статистично незалежними, якщо наші дані багатоваріантні, як правило, розподіляються? Якщо так, то як це можна продемонструвати / довести?

Я запитую, тому що я побачив цей пост , де у верхній відповіді зазначено:

PCA не робить явного припущення про гауссів. Він знаходить власні вектори, які максимізують дисперсію, пояснену в даних. Ортогональність основних компонентів означає, що він знаходить найбільш некорельовані компоненти, щоб пояснити якомога більше варіацій даних. Для багатоваріантних гауссових розподілів нульова кореляція між компонентами передбачає незалежність, що не стосується більшості розподілів.

Відповідь висловлюється без доказів і, мабуть, означає, що PCA виробляє незалежні компоненти, якщо дані є багатоваріантними нормальними.

Скажімо, наші дані - це зразки:

xN(μ,Σ)

ми поміщаємо n зразків x у рядки нашої матриці зразків X , тому X дорівнює n×m . Обчислення SVD X (після центрування) дає вихід

X=USVT

Чи можна сказати, що стовпці U є статистично незалежними, також тоді рядки VT ? Це правда взагалі, лише для xN(μ,Σ) , чи взагалі не відповідає дійсності?


1
stats.stackexchange.com/q/110508/3277 - подібне питання.
ttnphns

1
Я не бачу, як ПК можна, можливо, вважати "статистично незалежними" в більш ніж одному вимірі. Зрештою, за визначенням кожен з них є ортогональним для всіх інших; ця функціональна залежність створює дуже сильну статистичну залежність.
whuber

1
@amoeba Я сподіваюся , що я послідовно ясно, а також вірним на питання, який я знаходжу , щоб бути чітко сформульовані і однозначні: оскільки дані є випадковими, так що всі записи в U . Я застосував до них визначення статистичної незалежності. Це все. Ваша проблема полягає в тому, що ви вживаєте слово "некорельований" у двох дуже різних сенсах, не здаючись, усвідомлюючи це: завдяки тому, як побудовані стовпці U , вони геометрично ортогональні як вектори в R n , але вони ні означає незалежні випадкові вектори! XUURn
whuber

1
@amoeba Ви праві - моделювання досить переконливо показує, що кореляція може бути (сильно) ненульовою. Однак я не заперечую, що "компоненти PCA є некорельованими" у значенні "кореляція" = "ортогональна", і не кажу, що будь-який конкретний підручник є невірним. Я занепокоєний тим, що таке твердження, правильно зрозуміле, настільки не має значення для питання, що все, що він може (і зробив), викликає велику плутанину в сучасному контексті.
whuber

1
@whuber, я впевнений, що ти з нетерпінням чекав ще одного видання моєї відповіді! Ось. Я явно визнати свої пункти про залежність, і зробити заяву , що стовпці є асимптотично незалежні, як мій основний точки. Тут "асимптотично" позначається число n спостережень (рядків). Я дуже сподіваюся, що ми зможемо з цим погодитися! Я також стверджую, що для будь-якого розумного n , наприклад n = 100 , залежність між стовпцями "практично не має значення". Напевно, це є більш суперечливим моментом, але я намагаюся зробити це у своїй відповіді досить точно. Unnn=100
амеба каже, що поверніть Моніку

Відповіді:


23

Почну з інтуїтивної демонстрації.

Я генерував спостережень (а) від сильно негаусського 2D-розподілу та (b) від 2D-гауссового розподілу. В обох випадках я сконцентрував дані та провів сингулярне розкладання значення X = U S V . Тоді для кожного випадку я зробив графік розкидання перших двох стовпців U , один проти іншого. Зауважте, що зазвичай стовпці U S називають "основними компонентами" (ПК); стовпці U - це ПК, які масштабуються, щоб мати одиничну норму; до сих пір, в цій відповіді я зосереджуся на шпальтах U . Ось сюжетні схеми:n=100X=USVUUSUU

PCA of Gaussian and non-Gaussian data

Я думаю, що такі твердження, як "компоненти PCA некорельовані" або "компоненти PCA залежні / незалежні", зазвичай робляться приблизно про одну конкретну вибіркову матрицю і посилаються на кореляції / залежності в рядках (див. Наприклад , відповідь @ ttnphns тут ). PCA дає матрицю перетворених даних U , де рядки - це спостереження, а стовпці - змінні ПК. Тобто ми можемо бачити U як зразок і запитати, яка співвідношення вибірки між змінними ПК. Ця вибіркова кореляційна матриця, звичайно, задається UU = IXUUUU=I, що означає, що вибіркові співвідношення між змінними ПК дорівнюють нулю. Це те, що люди мають на увазі, коли кажуть, що "PCA діагоналізує коваріаційну матрицю" тощо.

Висновок 1: у координатах PCA будь-які дані мають нульову кореляцію.

Це справедливо для обох розсіювачів вище. Однак відразу очевидно, що дві змінні ПК і y зліва (не гауссова) розсіювача не є незалежними; незважаючи на те, що вони мають нульову кореляцію, вони сильно залежні і насправді пов'язані a y a ( x - b ) 2 . І дійсно, добре відомо, що некорельований не означає незалежний .xyya(xb)2

Навпаки, дві комп'ютерні змінні і y праворуч (гауссова) розсіювач здаються "майже незалежними". Обчислення взаємної інформації між ними (що є мірою статистичної залежності: незалежні змінні мають нульову взаємну інформацію) за будь-яким стандартним алгоритмом дасть значення, дуже близьке до нуля. Це не буде рівно нульовим, оскільки він ніколи не буде абсолютно нульовим для будь-якого кінцевого розміру вибірки (якщо тільки не налаштовано); крім того, існують різні методи обчислення взаємної інформації двох вибірок, даючи дещо різні відповіді. Але ми можемо очікувати, що будь-який метод дасть оцінку взаємної інформації, яка дуже близька до нуля.xy

Висновок 2: у координатах PCA дані Гаусса "майже незалежні", тобто стандартні оцінки залежності будуть приблизно нульовими.

Питання, однак, є більш складним, про що свідчить довгий ланцюжок коментарів. Дійсно, @whuber справедливо вказує, що змінні PCA і y (стовпці U ) повинні бути статистично залежними: стовпці повинні бути одиничної довжини і повинні бути ортогональними, і це вводить залежність. Наприклад, якщо деяке значення в першому стовпчику дорівнює 1 , то відповідне значення у другому стовпчику повинно бути 0 .xyU10

Це правда, але це практично актуально для дуже малих , наприклад, наприклад, n = 3 (при n = 2 після центрування є лише один ПК). Для будь-якого розумного розміру вибірки, такого як n = 100, показаного на моїй фігурі вище, ефект залежності буде незначним; стовпці U - це (масштабовані) проекції даних Гаусса, тому вони також є гауссовими, що робить практично неможливим, щоб одне значення було близьким до 1 (для цього потрібно, щоб усі інші n - 1 елементів були близькими до 0 , що навряд чи розподіл Гаусса).nn=3n=2n=100U1n10

Висновок 3: строго кажучи, для будь-яких кінцевих даних Гаусса в координатах PCA залежать; однак ця залежність практично не має значення для будь-якого n 1 .nn1

Ми можемо зробити це точно, розглядаючи, що відбувається в межі . У межі нескінченного розміру вибірки матриця коваріації вибірки дорівнює матриці коваріації населення Σ . Таким чином , якщо вектор даних X вибірка з Х ~ N ( 0 , Σ ) , то змінні є ПК Y = Л - 1 / 2 V X / ( п - 1 ) (де Λ і VnΣXXN(0,Σ)Y=Λ1/2VX/(n1)ΛVє власними значеннями та власними векторами ) та YN ( 0 , I / ( n - 1 ) ) . Тобто змінні ПК походять від багатоваріантного гаусса з діагональною коваріацією. Але будь-який багатоваріантний гаусс з діагональною матрицею коваріації розкладається на продукт одновимірних гауссів, і це визначення статистичної незалежності :ΣYN(0,I/(n1))

N(0,diag(σi2))=1(2π)k/2det(diag(σi2))1/2exp[xdiag(σi2)x/2]=1(2π)k/2(i=1kσi2)1/2exp[i=1kσi2xi2/2]=1(2π)1/2σiexp[σi2xi2/2]=N(0,σi2).

Висновок 4: асимптотично ( ) ПК-змінні гауссових даних статистично незалежні як випадкові величини, а вибіркова взаємна інформація дасть значення сукупності нулю.n

Слід зазначити, що це питання можна зрозуміти по-різному (див. Коментарі @whuber): розглянути всю матрицю випадковою змінною (отриманою з випадкової матриці X за допомогою конкретної операції) і запитати, чи є якісь два конкретні елементи U i J і U до л з двох різних стовпців статистично незалежні в різних розіграшах X . Ми дослідили це питання в цій пізнішій темі .UXUijUklX


Ось усі чотири проміжні висновки зверху:

  • У координатах PCA будь-які дані мають нульову кореляцію.
  • У координатах PCA дані Гаусса "майже незалежні", тобто стандартні оцінки залежності становитимуть нуль.
  • Strictly speaking, for any finite n, Gaussian data in PCA coordinates are dependent; however, this dependency is practically irrelevant for any n1.
  • Asymptotically (n) PC variables of Gaussian data are statistically independent as random variables, and sample mutual information will give the population value zero.

You write "However, if the data are multivariate Gaussian, then they are indeed independent". 'They' being the principal components, and their coefficients? What do you mean by PCA diagonalizes the covariance matrix? Thank you for your response!
bill_e

"They" refers to principal components (which are projections of the data on the directions of maximal variance). PCA looks for directions of maximal variance; turns out that these directions are given by the eigenvectors of the covariance matrix. If you change the coordinates to the "PCA coordinates", then the covariance matrix will be diagonal, that is how eigendecomposition works. Equivalently, matrix S in the SVD from your question is a diagonal matrix. Also, matrix U is orthogonal, meaning that its covariance matrix is diagonal. All of that means that PCs have correlation zero.
amoeba says Reinstate Monica

Cool, thank you! The combination of your answer and this comment helps clear things up for me a lot. Can I edit your comment into your answer?
bill_e

I expanded the answer by incorporating the comment; see if you are happy with it now.
amoeba says Reinstate Monica

2
Interesting discussion! When I asked the question, my thought of statistical dependence was "if you know PC1, is it possible infer PC2?, etc." I will look more into independence tests based on mutual information now.
bill_e
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.