Почну з інтуїтивної демонстрації.
Я генерував спостережень (а) від сильно негаусського 2D-розподілу та (b) від 2D-гауссового розподілу. В обох випадках я сконцентрував дані та провів сингулярне розкладання значення X = U S V ⊤ . Тоді для кожного випадку я зробив графік розкидання перших двох стовпців U , один проти іншого. Зауважте, що зазвичай стовпці U S називають "основними компонентами" (ПК); стовпці U - це ПК, які масштабуються, щоб мати одиничну норму; до сих пір, в цій відповіді я зосереджуся на шпальтах U . Ось сюжетні схеми:n=100X=USV⊤UUSUU
Я думаю, що такі твердження, як "компоненти PCA некорельовані" або "компоненти PCA залежні / незалежні", зазвичай робляться приблизно про одну конкретну вибіркову матрицю і посилаються на кореляції / залежності в рядках (див. Наприклад , відповідь @ ttnphns тут ). PCA дає матрицю перетворених даних U , де рядки - це спостереження, а стовпці - змінні ПК. Тобто ми можемо бачити U як зразок і запитати, яка співвідношення вибірки між змінними ПК. Ця вибіркова кореляційна матриця, звичайно, задається U ⊤ U = IXUUU⊤U=I, що означає, що вибіркові співвідношення між змінними ПК дорівнюють нулю. Це те, що люди мають на увазі, коли кажуть, що "PCA діагоналізує коваріаційну матрицю" тощо.
Висновок 1: у координатах PCA будь-які дані мають нульову кореляцію.
Це справедливо для обох розсіювачів вище. Однак відразу очевидно, що дві змінні ПК і y зліва (не гауссова) розсіювача не є незалежними; незважаючи на те, що вони мають нульову кореляцію, вони сильно залежні і насправді пов'язані a y ≈ a ( x - b ) 2 . І дійсно, добре відомо, що некорельований не означає незалежний .xyy≈a(x−b)2
Навпаки, дві комп'ютерні змінні і y праворуч (гауссова) розсіювач здаються "майже незалежними". Обчислення взаємної інформації між ними (що є мірою статистичної залежності: незалежні змінні мають нульову взаємну інформацію) за будь-яким стандартним алгоритмом дасть значення, дуже близьке до нуля. Це не буде рівно нульовим, оскільки він ніколи не буде абсолютно нульовим для будь-якого кінцевого розміру вибірки (якщо тільки не налаштовано); крім того, існують різні методи обчислення взаємної інформації двох вибірок, даючи дещо різні відповіді. Але ми можемо очікувати, що будь-який метод дасть оцінку взаємної інформації, яка дуже близька до нуля.xy
Висновок 2: у координатах PCA дані Гаусса "майже незалежні", тобто стандартні оцінки залежності будуть приблизно нульовими.
Питання, однак, є більш складним, про що свідчить довгий ланцюжок коментарів. Дійсно, @whuber справедливо вказує, що змінні PCA і y (стовпці U ) повинні бути статистично залежними: стовпці повинні бути одиничної довжини і повинні бути ортогональними, і це вводить залежність. Наприклад, якщо деяке значення в першому стовпчику дорівнює 1 , то відповідне значення у другому стовпчику повинно бути 0 .xyU10
Це правда, але це практично актуально для дуже малих , наприклад, наприклад, n = 3 (при n = 2 після центрування є лише один ПК). Для будь-якого розумного розміру вибірки, такого як n = 100, показаного на моїй фігурі вище, ефект залежності буде незначним; стовпці U - це (масштабовані) проекції даних Гаусса, тому вони також є гауссовими, що робить практично неможливим, щоб одне значення було близьким до 1 (для цього потрібно, щоб усі інші n - 1 елементів були близькими до 0 , що навряд чи розподіл Гаусса).nn=3n=2n=100U1n−10
Висновок 3: строго кажучи, для будь-яких кінцевих даних Гаусса в координатах PCA залежать; однак ця залежність практично не має значення для будь-якого n ≫ 1 .nn≫1
Ми можемо зробити це точно, розглядаючи, що відбувається в межі . У межі нескінченного розміру вибірки матриця коваріації вибірки дорівнює матриці коваріації населення Σ . Таким чином , якщо вектор даних X вибірка з → Х ~ N ( 0 , Σ ) , то змінні є ПК → Y = Л - 1 / 2 V ⊤ → X / ( п - 1 ) (де Λ і Vn→∞ΣXX⃗ ∼N(0,Σ)Y⃗ =Λ−1/2V⊤X⃗ /(n−1)ΛVє власними значеннями та власними векторами ) та → Y ∼ N ( 0 , I / ( n - 1 ) ) . Тобто змінні ПК походять від багатоваріантного гаусса з діагональною коваріацією. Але будь-який багатоваріантний гаусс з діагональною матрицею коваріації розкладається на продукт одновимірних гауссів, і це визначення статистичної незалежності :ΣY⃗ ∼N(0,I/(n−1))
N(0,diag(σ2i))=1(2π)k/2det(diag(σ2i))1/2exp[−x⊤diag(σ2i)x/2]=1(2π)k/2(∏ki=1σ2i)1/2exp[−∑i=1kσ2ix2i/2]=∏1(2π)1/2σiexp[−σ2ix2i/2]=∏N(0,σ2i).
Висновок 4: асимптотично ( ) ПК-змінні гауссових даних статистично незалежні як випадкові величини, а вибіркова взаємна інформація дасть значення сукупності нулю.n→∞
Слід зазначити, що це питання можна зрозуміти по-різному (див. Коментарі @whuber): розглянути всю матрицю випадковою змінною (отриманою з випадкової матриці X за допомогою конкретної операції) і запитати, чи є якісь два конкретні елементи U i J і U до л з двох різних стовпців статистично незалежні в різних розіграшах X . Ми дослідили це питання в цій пізнішій темі .UXUijUklX
Ось усі чотири проміжні висновки зверху:
- У координатах PCA будь-які дані мають нульову кореляцію.
- У координатах PCA дані Гаусса "майже незалежні", тобто стандартні оцінки залежності становитимуть нуль.
- Strictly speaking, for any finite n, Gaussian data in PCA coordinates are dependent; however, this dependency is practically irrelevant for any n≫1.
- Asymptotically (n→∞) PC variables of Gaussian data are statistically independent as random variables, and sample mutual information will give the population value zero.