Приклади PCA, де ПК з низькою дисперсією є "корисними"


24

Зазвичай при аналізі основних компонентів (PCA) використовуються перші кілька ПК, а ПК з низькою дисперсією відпадає, оскільки вони не пояснюють великої кількості варіацій даних.

Однак, чи є приклади, коли ПК з низькою варіацією корисний (тобто використовують у контексті даних, мають інтуїтивне пояснення тощо) і їх не слід викидати?


5
Досить багато. Дивіться PCA, випадковість компонента? Це навіть може бути дублікатом, але ваш заголовок набагато чіткіший (отже, ймовірно, простіше знайти за допомогою пошуку), тому, будь ласка, не видаляйте його, навіть якщо він закритий.
Нік Стаунер

Відповіді:


18

Ось класний уривок Jolliffe (1982), який я не включив у свою попередню відповідь на дуже схоже запитання: " Компоненти з низькою дисперсією в PCA, чи справді вони просто шум? Чи є спосіб перевірити це? " це досить інтуїтивно.

Припустимо, що потрібно передбачити висоту основи хмари, , важливу проблему в аеропортах. Вимірюються різні кліматичні змінні, включаючи температуру поверхні T s та температуру поверхні роси, T d . Тут T d - температура, при якій поверхневе повітря було б насичене водяною парою, а різниця T s - T d - це міра вологості поверхні. Зараз T s , T d, як правило, позитивно корелюють, тому основний компонентний аналіз кліматичних змінних буде мати високодисперсну складову, яка сильно корелює з THTsTdTdTsTdTs,Td , і компонент з низькою дисперсією, який аналогічно корелює з T s - T d . Але Н пов'язано з вологістю іотже, Т з - Т д , тобто до низькою дисперсієюа не компонентвисокою дисперсією, такстратегіїяка відхиляє компонентинизьким рівнем дисперсії дають погані прогнози для H .Ts+TdTsTdHТс-ТгН
Обговорення цього прикладу обов'язково розпливчасте через невідомі ефекти будь-яких інших кліматичних змінних, які також вимірюються та включаються в аналіз. Однак він показує фізично правдоподібний випадок, коли залежна змінна буде пов'язана з низькодисперсною складовою, що підтверджує три емпіричні приклади з літератури.
Крім того, приклад на основі хмарності був випробуваний на даних аеропорту Кардіфф (Уельс) за 1966–73 рр. З додатковою кліматичною змінною, температурою поверхні моря. Результати по суті були такими, як було передбачено вище. Останній головний компонент становив приблизно , і він становив лише 0,4 відсотка від загальної зміни. Тим НЕ менше, в якості основного компонента регресії він був найважливішим прогностичним фактором для H . [Наголос додано]Тс-ТгН

Три приклади з літератури, про які йдеться в останньому реченні другого абзацу, були трьома, про які я згадував у своїй відповіді на пов'язане питання .


Довідка
Jolliffe, IT (1982). Примітка щодо використання основних компонентів при регресії. Прикладна статистика, 31 (3), 300–303. Отримано з http://automatica.dei.unipd.it/public/Schenato/PSC/2010_2011/gruppo4-Building_termo_identification/IdentificazioneTermodinamica20072008/Biblio/Articoli/PCR%20vecchio%2082.pdf .


V(А+Б)=V(А)+V(Б)+2Соv(А,Б)V(А-Б)=V(А)+V(Б)-2Соv(А,Б)Тс-Тг

+1, це приємний приклад. Цікаво, що це також приклад придушення.
gung - Відновіть Моніку

17

Якщо у вас є R, є хороший приклад crabsданих у пакеті MASS.

> library(MASS)
> data(crabs)
> head(crabs)

  sp sex index   FL  RW   CL   CW  BD
1  B   M     1  8.1 6.7 16.1 19.0 7.0
2  B   M     2  8.8 7.7 18.1 20.8 7.4
3  B   M     3  9.2 7.8 19.0 22.4 7.7
4  B   M     4  9.6 7.9 20.1 23.1 8.2
5  B   M     5  9.8 8.0 20.3 23.0 8.2
6  B   M     6 10.8 9.0 23.0 26.5 9.8

> crabs.n <- crabs[,4:8]
> pr1 <- prcomp(crabs.n, center=T, scale=T)
> cumsum(pr1$sdev^2)/sum(pr1$sdev^2)
[1] 0.9577670 0.9881040 0.9974306 0.9996577 1.0000000

Понад 98% дисперсії "пояснюється" першими двома ПК, але насправді, якщо ви насправді зібрали ці вимірювання і вивчали їх, третій ПК є дуже цікавим, оскільки він тісно пов'язаний з видами крабів. Але він завалений PC1 (який, здається, відповідає розміру краба) та PC2 (який, здається, відповідає статі краба.)

введіть тут опис зображення

введіть тут опис зображення


2
+1, це дійсно акуратна демонстрація. Я зробив 2 матриці розсіювання, які можна додати, якщо хочете.
gung - Відновіть Моніку

1
@gung: Дякую за додавання розсипачів! Раніше я відповів на цю відповідь, але не цілком оцінив її, не побачивши сюжетів. Scatterplot PC2 проти PC3 справді приємно: розділяє і гендер, і види майже ідеально. Мені цей приклад подобається ще й тому, що він ілюструє те, що відбувається, коли всі змінні сильно позитивно корелюються (тобто PC1 пояснює безліч варіацій і в основному є середнім).
Амеба каже, що повернеться до Моніки

1
Дякую, @amoeba. Мені дуже подобається, як вони виявилися. Я витратив багато часу на виїжджаючи з ними (кольори, pch, мітки, легенда). Я насправді думаю, що вони зараз гарні. Ви добре задумаєтесь про PC1. Ми також можемо побачити, що існує (ймовірно) постійний коефіцієнт зміни та взаємодії за статтю та / або видом у багатьох стосунках: маленькі (дитячі?) Краби, як правило, мають однакові значення незалежно від статі чи виду, але як вони зростають (вік?), вони стають більш виразними. І т. Д. Тут є багато акуратних речей - ви можете просто дивитися на них.
gung - Відновіть Моніку

8

Ось два приклади з мого досвіду (хіміометрія, оптична / коливальна / Раманова спектроскопія):

  • Нещодавно у мене були дані оптичної спектроскопії, де> 99% від загальної дисперсії необроблених даних було пов'язано зі змінами фонового світла (проміння більш-менш інтенсивне в вимірюваній точці, люмінесцентні лампи включалися / вимикалися, більше або менше хмари до сонце). Після корекції фону оптичними спектрами відомих впливаючих факторів (витягнутих PCA на вихідні дані; додаткові вимірювання, зроблені для покриття цих варіацій), ефект, який нас зацікавив, виявився на ПК 4 і 5.
    ПК 1 і 3, де через інші ефекти в вимірюваному зразку, а ПК 2 корелює з нагріванням наконечника приладу під час вимірювань.

  • В іншому вимірюванні використовували лінзу без корекції кольору для вимірюваного спектрального діапазону. Хроматична аберація призводить до спотворень у спектрах, що склало приблизно 90% від загальної дисперсії попередньо оброблених даних (в основному зафіксовано в ПК 1).
    За цими даними нам знадобилося досить багато часу, щоб зрозуміти, що саме сталося, але перехід до кращої мети вирішив проблему для подальших експериментів.

(Я не можу показати деталі, оскільки ці дослідження все ще не опубліковані)


3

Я помітив, що ПК з низькою дисперсією є найбільш корисними при виконанні PCA на коваріаційній матриці, де основні дані кластуються або групуються якимось чином. Якщо одна з груп має істотно нижчу середню дисперсію, ніж інші групи, то в цій групі переважають найменші ПК. Однак у вас можуть бути певні причини не хотіти викидати результати з цієї групи.

У фінансах дохідність акцій становить близько 15-25% річного стандартного відхилення. Зміни в доходності облігацій історично значно нижчі за стандартне відхилення. Якщо ви виконаєте PCA на коваріаційній матриці фондовіддачі та зміні прибутковості облігацій, то верхні ПК будуть відображати дисперсію акцій, а найменші - відображати дисперсії облігацій. Якщо ви викинете комп'ютери, які пояснюють зв'язки, то вам можуть виникнути проблеми. Наприклад, облігації можуть мати дуже різні характеристики розподілу, ніж запаси (більш тонкі хвости, різні властивості дисперсії, що відрізняються за часом, різна середня реверсія, коінтеграція тощо). Вони можуть бути дуже важливими для моделювання, залежно від обставин.

Якщо ви виконуєте PCA на кореляційній матриці, ви можете побачити більше ПК, що пояснюють зв’язки вгорі.


Цю відповідь дуже важко зрозуміти, якщо людина не знає, що таке акції, облігації, дохідність та дохідність. Я не знаю, і тому я не бачу, як ваше перше речення пов’язане з вашим другим ...
Амеба каже Відновити Моніку

1
Я вніс кілька змін.
Іван

1

У цій бесіді ( слайдах ) ведучі обговорюють використання PCA для розмежування між особливостями високої та низької змінності.

Вони фактично віддають перевагу особливостям низької мінливості для виявлення аномалії, оскільки суттєвий зсув у вимірі низької змінності є сильним показником аномальної поведінки. Мотивуючий приклад, який вони надають, такий:

Припустимо, що користувач завжди входить із Mac. Вимір їхньої діяльності "операційної системи" був би дуже низьким. Але якби ми побачили подію входу від того самого користувача, де "операційною системою" була Windows, це було б дуже цікаво і щось, що ми хотіли б зловити.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.