PCA неагауссових даних


20

У мене є кілька швидких питань щодо PCA:

  • Чи вважає PCA, що набір даних є гауссовим?
  • Що трапляється, коли я застосовую PCA до властивих нелінійних даних?

Враховуючи набір даних, процес спочатку повинен середньо-нормалізувати, встановити дисперсію на 1, взяти SVD, зменшити ранг і, нарешті, зіставити набір даних у новий простір зі зменшеним рангом. У новому просторі кожному виміру відповідає "напрямок" максимальної дисперсії.

  • Але чи завжди співвідношення цього набору даних у новому просторі дорівнює нулю, чи це справедливо лише для даних, які є властивими Гауссу?

Припустимо, у мене є два набори даних, "A" і "B", де "A" відповідає випадково відібраним точкам, узятим у Гаусса, тоді як "B" відповідає точкам, випадковим чином відібраним з іншого розподілу (скажімо, Пуассон).

  • Як PCA (A) порівнюється з PCA (B)?
  • Дивлячись на точки в новому просторі, як би я визначив, що PCA (A) відповідає точкам, відібраним у Гаусса, тоді як PCA (B) відповідає точкам, відібраним з Пуассона?
  • Чи відповідає кореляція точок у "А" 0?
  • Чи також кореляція балів у "В" також 0?
  • Що ще важливіше, я задаю "правильне" питання?
  • Чи варто дивитись на співвідношення, чи є інший показник, який я повинен розглянути?

2
Додаток про припущення PCA дивіться у цій статті .
припускаєтьсянормальне

Відповіді:


17

У вас є вже кілька хороших відповідей тут (+1 до обох @ Cam.Davidson.Pilon & @MichaelChernick). Дозвольте викинути пару пунктів, які допомагають мені задуматися над цим питанням.

По-перше, PCA працює над кореляційною матрицею. Таким чином, мені здається важливим питанням, чи є сенс використовувати кореляційну матрицю, щоб допомогти вам думати про свої дані. Наприклад, співвідношення продукту-моменту Пірсона оцінює лінійну залежність між двома змінними; якщо ваші змінні є спорідненими, але не лінійно, кореляція не є ідеальною метрикою для індексації сили зв'язку. ( Ось приємна дискусія в CV про співвідношення та ненормальні дані.)

По-друге, я думаю, що найпростіший спосіб зрозуміти, що відбувається з PCA, це те, що ви просто обертаєте осі. Звичайно, ви можете робити більше речей, і, на жаль, PCA плутається з факторним аналізом (що, безумовно, має ще більше). Тим не менш, звичайний старий PCA без дзвіночків, можна думати наступним чином:

  • у вас на аркуші паперового паперу викладено кілька точок у двох вимірах;
  • у вас прозорість з ортогональними осями, намальованими на ній, і виворіт у витоці;
  • ви орієнтуєте початок прозорості (тобто, щілину) поверх і просуньте кінчик олівця крізь отвір, щоб утримати його на місці; (х¯,у¯)
  • потім ви обертаєте прозорість до тих пір, поки точки (коли індексуються відповідно до осей прозорості замість оригінальних) не будуть співвідносні.

Це не ідеальна метафора для PCA (наприклад, ми не змінили масштаби варіацій до 1). Але це дає людям основну думку. Сенс полягає в тому, щоб використовувати це зображення, щоб подумати про те, як виглядає результат, якби дані не були Гауссовими для початку; це допоможе вам вирішити, чи варто цей процес робити. Сподіваюся, що це допомагає.


2
+1 (давно). Я думаю, що це найкраща відповідь у цій темі, сподіваюся, що вона зібере ще одну нагороду, щоб стати і найбільш прихильною. Мені подобається ваш спосіб пояснення PCA прозорістю, це приємно.
амеба каже, що повернеться до Моніки

До речі, ця ваша відповідь надихнула мою нещодавню відповідь у нашій величезній нитці PCA: «Я створив ці анімовані gif-файли, маючи на увазі вашу аналогічність прозорості.
амеба каже, що поверніть Моніку

Це чудова відповідь, @amoeba. Це набагато краще, ніж це.
gung - Відновіть Моніку

13

Я можу дати часткове рішення і показати відповідь на ваше абзац другийш1ш2Хш1Хш2Х

Соv(Хш1,Хш2)=Е[(Хш1)Т(Хш2)]-Е[Хш1]ТЕ[Хш2]
шiХ
ш1ТЕ[ХТХ]ш2=Vаr(Х)ш1Тш2=0
шiVаr(Х)

ХХшХХш

α


7

Не існує лінійності чи нормальності, припущеної в УПС. Ідея полягає лише в тому, що декомпонується варіація п-мірного набору даних на ортогональні компоненти, упорядковані відповідно до кількості поясненої дисперсії.


2
Правда, але "декомпозиція зміни розміру набору даних p на ортогональні компоненти" не дуже корисна, коли між змінними існують нелінійні залежності, оскільки ортогоналізація зазвичай робиться так, що ви можете стверджувати, що розміри не пов'язані (що є також пов'язані з гауссовою частиною питання). Коли ви робите PCA і плануєте інтерпретувати результати звичайним способом, існує основне припущення, що дані перебувають у лінійному просторі нижнього розміру .
Макрос

2
@Macro Не зовсім. Я б сказав, що основне припущення полягає в тому, що принаймні більша частина змінності і, отже, шаблону даних сконцентрована в деякому нижньому розмірному просторі. Я дуже добре переглядаю параболу у двовимірному просторі з ортогональними компонентами. Я думаю, що нелінійні форми можна розглядати в двох-трьох вимірах. Якщо дані надходять із багатовимірного гауссова дистрибуція, то в деякому підпросторі точки повинні виглядати як еліпсоїдальна хмара. Розподіл не повинен виглядати як еліпсоїд, щоб його погляд у підпростірі високих ПК був цікавим.
Майкл Р. Черник

4
Я б трохи це кваліфікував. У класичних PCA або PCA від SVD відсутнє припущення про нормальність. Однак алгоритми ЕМ для обчислення PCA з відсутніми даними передбачають нормальність та лінійність.
Джон

Незважаючи на те, що класична дорога до PCA не потребує жодних припущень, є ще одна дорога до її вирішення: імовірнісна PCA з 0 вимірювальним шумом.
байерж

3

Читання сторінки 7 тут:

http://www.cs.princeton.edu/picasso/mats/PCA-Tutorial-Intuition_jp.pdf

вони зазначають, що PCA передбачає, що розподіл того, що ми пояснюємо, може бути описаний лише середнім (нульовим) показником і дисперсією, що, як вони кажуть, може бути лише нормальним розподілом.

(В основному на додаток до відповіді Кам, але мені не вистачає репутації для коментарів:)


1
Посилання, яке ви надали до підручника Шленса, - це версія 1 підручника, але версія 3.02 (остаточна версія?) Тепер доступна, і цей конкретний пункт було видалено. Також це питання задали саме про це.
Орен Мільман

0

Наскільки мені відомо, PCA не припускає нормальності даних. Але якщо воно нормально розподілене (у більш загальному сенсі симетрично розподілене), то результат є більш надійним. Як кажуть інші, ключовим є те, що PCA базується на матриці коефіцієнтів кореляції Пірсона, на оцінку якої впливають люди, що переживають люди та косий розподіл. Отже, в деяких аналізах, таких як статистичний тест або p-значення, вам слід більше дбати про те, чи задовольняється нормальність; але в інших додатках, таких як дослідницький аналіз, ви можете використовувати його, але будьте обережні лише при здійсненні інтерпретацій.


-1

Погоджувались з іншими, хто заявив, що дані слід "нормально" поширювати. Будь-який розподіл буде перетинатися з нормальним розподілом, якщо ви трансформуєте його. Якщо ваш розподіл не є нормальним, результати, які ви отримаєте, будуть неповноцінними порівняно з тим випадком, коли це нормально, як заявляють деякі тут ...

  • Ви можете перетворити свій розподіл, якщо вам потрібно.
  • Ви можете вибрати PCA і використовувати замість цього незалежний компонентний аналіз (ICA).

Якщо ви читаєте посилання в першій відповіді, в розділі Додатку вказується, що припущення є нормальним розподілом.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.