PCA щодо кореляції чи коваріації: чи PCA щодо кореляції коли-небудь має сенс? [зачинено]


32

В основному аналізі компонентів (PCA) можна вибрати або коваріаційну матрицю, або кореляційну матрицю, щоб знайти компоненти (з відповідних власних векторів). Вони дають різні результати (завантаження ПК та бали), оскільки власні вектори між обома матрицями не рівні. Я розумію, що це спричинене тим, що вектор і його стандартизація Z не можуть бути пов'язані через ортогональне перетворення. Математично подібні матриці (тобто пов'язані з ортогональним перетворенням) мають однакові власні значення, але не обов'язково однакові власні вектори.XZ

Це викликає деякі труднощі в моїй свідомості:

  1. Чи насправді PCA має сенс, якщо ви можете отримати дві різні відповіді на один і той же набір вихідних даних, обидва намагаються досягти одного і того ж (= пошук напрямів максимальної дисперсії)?

  2. Під час використання матриці кореляційної матриці перед розрахунком ПК кожна змінна стандартизується (масштабується) за власним індивідуальним стандартним відхиленням. Як же тоді все-таки має сенс знайти напрямки максимальної дисперсії, якщо дані заздалегідь були масштабовані / стиснуті по-різному? Я знаю, що така кореляція PCA дуже зручна (стандартизовані змінні є безрозмірними, тому їх лінійні комбінації можна додати; інші переваги також базуються на прагматизмі), але чи правильно це?

Мені здається, що PCA на основі коваріації є єдиним справді правильним (навіть коли варіації змінних сильно відрізняються), і що коли ця версія не може бути використана, PCA на основі кореляції також не слід використовувати.

Я знаю, що є така нитка: PCA на кореляцію чи коваріацію? - але, здається, зосереджена лише на пошуку прагматичного рішення, яке може бути, а може бути і не алгебраїчно правильним.


4
Я буду чесним і скажу вам, що я кинув читати ваше запитання в якийсь момент. PCA має сенс. Так, результати можуть бути різними залежно від того, ви вирішили використовувати матрицю кореляції чи дисперсії / коваріації. Кореляція на основі PCA є кращою, якщо ваші змінні вимірюються в різних масштабах, але ви не хочете, щоб це домінувало над результатом. Уявіть, що якщо у вас є ряд змінних, які варіюються від 0 до 1, а потім деякі, які мають дуже великі значення (відносно кажучи, як 0 до 1000), велика дисперсія, пов'язана з другою групою змінних, буде домінувати.
Патрік

4
Але так буває і з багатьма іншими методами, і я вважаю, що точка Патріка є розумною. Також це був лише коментар, не потрібно ставати агресивним. Взагалі кажучи, чому ви вважаєте, що має бути один справжній «алгебраїчно» правильний спосіб підходу до проблеми?
Гала

5
Можливо, ви думаєте про PCA невірним чином: це просто перетворення, тому не виникає сумніву в тому, чи правильно воно чи неправильно, чи покладатися на припущення щодо моделі даних - на відміну, скажімо, від регресії чи факторного аналізу.
Scortchi

5
Суть цього питання, як видається, полягає в нерозумінні того, що робить стандартизація та як PCA працює. Це зрозуміло, оскільки для розуміння PCA потрібна візуалізація фігур більш високих розмірів. Я б заперечував, що це питання, як і багато інших питань, заснованих на якомусь непорозумінні, є тим самим хорошим і повинно залишатися відкритим, оскільки його відповідь (и) може виявити істини, які багато людей, можливо, раніше не цілком оцінили.
качан

6
PCA нічого не "вимагає". Люди претендують на PCA і насправді використовують його дуже по-різному, залежно від галузі. Деякі з цих застосувань можуть бути нерозумними або сумнівними, але, здається, не дуже приємно вважати, що один варіант методики повинен бути "алгебраїчно правильним", не маючи посилання на контекст або мету аналізу.
Гала

Відповіді:


29

Я сподіваюся, що ці відповіді на ваші два запитання заспокоїть ваше занепокоєння:

  1. Кореляційна матриця - це коваріаційна матриця стандартизованих (тобто не лише центрированних, але і масштабованих) даних; тобто матриця коваріації (як би) іншого , іншого набору даних. Отже, це природно, і це не повинно вас турбувати, що результати відрізняються.
  2. Так, є сенс знайти напрямки максимальної дисперсії зі стандартизованими даними - вони є напрямами - так би мовити - "кореляції", а не "ковариативності"; тобто після впливу неоднакових дисперсій - початкових змінних - на форму багатофакторної хмари даних було знято.

Наступний текст та зображення, додані @whuber (я дякую йому. Також дивіться мій коментар нижче)

Ось двовимірний приклад, який показує, чому все-таки має сенс знаходити основні осі стандартизованих даних (показано праворуч). Зауважте, що на правій ділянці хмара все ще має "форму", хоча відхилення уздовж осей координат зараз точно рівні (до 1,0). Аналогічно, у більш високих розмірах стандартизована хмара точок матиме несферичну форму, навіть якщо відхилення по всіх осях точно рівні (до 1,0). Основні осі (з відповідними власними значеннями) описують цю форму. Ще один спосіб зрозуміти це - зазначити, що відбувається все масштаб і зміщення, що відбувається при стандартизації змінних лише в напрямках осей координат, а не в самих основних напрямках.

Малюнок

Те, що відбувається тут, є геометрично настільки інтуїтивним і зрозумілим, що було б розтягнутись, щоб охарактеризувати це як "операцію з чорної скриньки": навпаки, стандартизація та PCA - це одні з найосновніших і рутинних речей, які ми робимо з даними для того, щоб щоб їх зрозуміти.


Продовжує @ttnphns

Коли ви вважаєте за краще робити PCA (або факторний аналіз чи інший подібний тип аналізу) на кореляціях (тобто на z-стандартизованих змінних), а не робити це на коваріаціях (тобто на центрированих змінних)?

  1. Коли змінні є різними одиницями вимірювання. Це зрозуміло.
  2. Коли хочеться, щоб аналіз відображав справедливий і лише лінійний характер асоціації. Пірсон r - це не тільки коваріація між немальованими (дисперсія = 1) змінними; це раптом є мірою сили лінійного відношення, тоді як звичайний коефіцієнт коваріації сприйнятливий як до лінійного, так і до монотонного відношення.
  3. Коли хочеться, щоб асоціації відображали лупу, яка "скорочується" або "розтягує" шкалу оцінок на одну. відносну співвідхилення (від середнього), а не неодноразову девіантність. Кореляція базується на розподілах, їх поширенні, тоді як коваріація базується на вихідній шкалі вимірювання. Якби я факторно проаналізував психопатологічні профілі пацієнтів, як вони були зібрані психіатрами, на деяких клінічних анкетах, що складаються з предметів типу Лікерта, я вважаю за краще коваріації. Тому що від професіоналів не очікується спотворення рейтингової шкали внутрішньопсихічно. Якби, з іншого боку, я мав би проаналізувати автопортрети пацієнтів за тією ж анкетою, я, мабуть, обрав би співвідношення. Оскільки очікується, що оцінка мирян буде відносно "інших людей", "більшість" "допустиме відхилення"

1
1. Вибачте, але це сильно турбує. Для зовнішньої особи стандартизація - це операція "чорна скринька", частина попередньої кондиціонування даних PCA (також в ICA). Він хоче отримати одну відповідь на свої (сировинні) вхідні дані, особливо якщо це стосується фізичних (розмірних) даних, для яких вихід PCA потрібно інтерпретувати фізично (тобто, з точки зору нестандартних змінних).
Lucozade

1
Ваша остання редакція видається повторним твердженням, що "PCA на основі коваріації - єдино справді правильний". Оскільки всі відповіді до цих пір по суті є "Ні; неправильний спосіб думати про це; і ось чому", важко знати, як ви очікуєте, щоб налагодити дискусію проти такої великої незгоди.
Нік Кокс

4
@Lucozade: Мене збентежив ваш опис вашої заявки: - Як PCA рекомендує щось? Як ви оцінювали результативність ? Аналогічно до вашого останнього коментаря: - Оптимум для чого?
Scortchi

5
@Lucozade: Дійсно, послухайте, будь ласка, те, що сказав Скорчі, ви, здається, продовжуєте ганятись на моторошників. PCA - це просто особлива форма обертання даних у просторі. Він завжди оптимально робить те, що робить із вхідними даними. Дилема "cov-corr" - це прагматична, коріння якої полягає в попередній обробці даних і вирішується на тому рівні, а не на рівні PCA.
ttnphns

1
@Lucozade: Це було б моїм (неекспертним) висновком, заснованим на вашій відповіді на мене, що у вашій конкретній потребі ви маєте право бажати PCA на основі cov. Знову ж таки, всі ваші змінні є однорідними за даними / типом вимірювання (той же тип машини та всі дані у вольтах). Для мене ваш приклад - це випадок, коли cov-PCA є правильним, але зауважте, що це не завжди так, і я вважаю, що це важливий момент цього потоку (вибір Cor v. Cov є конкретним і потребує конкретного випадку визначатись особою, яка найкраще розуміє дані та додаток). Успіхів у ваших дослідженнях!
Патрік

6

Якщо говорити з практичної точки зору - можливо, тут непопулярні - якщо у вас є дані, виміряні в різних масштабах, тоді перейдіть з кореляцією ("УФ-масштабування", якщо ви хімік), але якщо змінні знаходяться в одній шкалі і розмір їх має значення (наприклад, із спектроскопічними даними), тоді коваріація (лише центрування даних) має більше сенсу. PCA - метод, що залежить від масштабу, а також перетворення журналу може допомогти з дуже перекошеними даними.

На мою скромну думку, грунтуючись на 20-річному практичному застосуванні хіміометрії, ви повинні трохи експериментувати і побачити, що найкраще підходить для вашого типу даних. Наприкінці дня вам потрібно вміти відтворити свої результати і спробувати довести передбачуваність своїх висновків. Як ви там потрапляєте, часто трапляються випадки спроб і помилок, але важливо, що те, що ви робите, є документально підтвердженим та відтвореним.


4
Практичний підхід, який ви, начебто, відстоюєте тут, зводиться до того, що, як гарантовано і коваріації, і кореляції, - "спробуйте обидва і подивіться, що найкраще працює". Ця чисто емпірична позиція маскує той факт, що будь-який вибір випливає із власних припущень чи парадигми щодо реальності, про яку дослідник повинен усвідомлювати заздалегідь, навіть якщо він розуміє, що віддає перевагу одній із них повністю довільно. Вибір "що найкраще працює" - це вигода для почуття задоволення, наркоманії.
ttnphns

-2

У мене немає часу перейти до більш повного опису детальних та технічних аспектів описуваного нами експерименту, а роз'яснення щодо формулювань (рекомендації, ефективність, оптимальність) знову відвернуть нас від реальної проблеми, що стосується того, який тип вхідних даних PCA може (не) / повинен (не) приймати. PCA діє, приймаючи лінійні комбінації чисел (значень змінних). Математично, звичайно, можна додати будь-які два (реальні чи складні) числа. Але якщо вони були переосмислені перед трансформацією PCA, чи є їх лінійна комбінація (а отже, і процес максимізації) все ж таки має сенс діяти? Якщохiс2(х1/с1)+(х2/с2)=(х1+х2)/сх1+х2с1с2 різніградусів. Мабуть, мало сенсу тоді максимізувати дисперсію їх лінійної комбінації. У такому випадку PCA дає рішення для іншого набору даних, завдяки чому кожна змінна масштабується по-різному. Якщо потім нестандартні зміни (після використання corr_PCA), можливо, це буде добре і необхідно; але якщо просто взяти необроблений розчин corr_PCA таким, який є, і зупинити його, ви отримаєте математичне рішення, але не одне, пов'язане з фізичними даними. Оскільки нестандартність після цього здається обов'язковою як мінімум (тобто, "розтягування" осей за допомогою обернених стандартних відхилень), cov_PCA можна було б використовувати для початку. Якщо ви досі читаєте, я вражений! Зараз я закінчую цитуванням книги Джолліффа, с. 42, яка стосується мене:"Однак не слід забувати, що ПК-матриця кореляції, коли їх повторно виражають у вигляді вихідних змінних, все ще є лінійними функціями x, які максимізують дисперсію відносно стандартизованих змінних, а не відносно вихідних змінних." Якщо ви думаєте, що я неправильно трактую це чи його наслідки, цей уривок може бути хорошим фокусом для подальшого обговорення.


3
Це настільки забавно, що ваша власна відповідь, яка співзвучна тому, що люди тут намагалися передати вам, залишається для вас невлаштованим. Ви все ще сперечаєтеся There seems little pointв PCA про кореляції. Ну, якщо вам потрібно залишатися поруч із необробленими даними ("фізичними даними", як ви це дивно називаєте), вам дійсно не слід використовувати кореляції, оскільки вони відповідають іншим ("спотвореним") даним.
ttnphns

2
(Проти.) Цитування Джолліффа стверджує, що ПК, отримані на кореляціях, коли-небудь будуть самими собою і не можуть бути повернені "назад" в ПК на коваріаціях, хоча ви можете повторно виразити їх як лінійні комбінації вихідних змінних. Таким чином, Джолліфф наголошує на думці, що результати PCA повністю залежать від типу попередньої обробки, що використовується, і що немає "справжніх", "справжніх" або "універсальних" ПК ...
ttnphns

2
(Проти.) І насправді, кілька рядків нижче Жолліфа говорить про ще одну "форму" PCA - PCA на X'Xматриці. Ця форма навіть «ближче» до вихідних даних, ніж cov-PCA, оскільки не відбувається центрирування змінних. А результати зазвичай абсолютно різні . Ви також можете зробити PCA на косинусах. Люди роблять PCA на всіх версіях матриці SSCP , хоча коваріації або кореляції використовуються найчастіше.
ttnphns

3
В основі цієї відповіді лежить неявне припущення, що одиниці, в яких вимірюються дані, мають внутрішнє значення. Це трапляється рідко: ми можемо вибрати вимірювання довжини в ангстремах, парсеках чи будь-чому іншому, а також час у пікосекундах чи тисячоліттях, не змінюючи значення даних на одну йоту. Зміни, внесені від коваріації до кореляції, - це лише зміни одиниць (які, до речі, особливо чутливі до зовнішніх даних). Це говорить про те, що проблема полягає не у коваріації та кореляції, а у пошуку плідних способів вираження даних для аналізу.
whuber

3
@ttnphns Я буду дотримуватися "просто", спасибі. Незалежно від того, чи є наслідки "глибокими" чи ні, залишається фактом, що стандартизація змінної буквально є афінним переосмисленням її значень: зміною одиниць вимірювання. Важливість цього спостереження полягає у його наслідках для деяких тверджень, що випливають із цієї теми, серед яких найвизначнішим є "PCA на основі коваріації - єдиний справді правильний". Будь-яке уявлення про правильність, яке в кінцевому рахунку залежить від фактично довільного аспекту даних - як ми їх записуємо - не може бути правильним.
whuber
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.