Який належний показник асоціації змінної з компонентом PCA (на графіці біплоту / завантаження)?


17

Я використовую, FactoMineRщоб зменшити набір даних вимірювань до прихованих змінних.

! [змінна карта] (http://f.cl.ly/items/071s190V1G3s1u0T0Y3M/pca.png)

Карта змінна вище ясно для мене , щоб інтерпретувати, але я збентежений , коли мова йде про зв'язки між змінними і компонента 1. Подивившись на змінної карті, ddpі covдуже близько до компоненту в карті, і ddpAbsтрохи далі геть. Але це не те, що показують кореляції:

$Dim.1
$Dim.1$quanti
        correlation      p.value
jittAbs   0.9388158 1.166116e-11
rpvi      0.9388158 1.166116e-11
sd        0.9359214 1.912641e-11
ddpAbs    0.9327135 3.224252e-11
rapAbs    0.9327135 3.224252e-11
ppq5      0.9319101 3.660014e-11
ppq5Abs   0.9247266 1.066303e-10
cov       0.9150209 3.865897e-10
npvi      0.8853941 9.005243e-09
ddp       0.8554260 1.002460e-07
rap       0.8554260 1.002460e-07
jitt      0.8181207 1.042053e-06
cov5_x    0.6596751 4.533596e-04
ps13_20  -0.4593369 2.394361e-02
ps5_12   -0.5237125 8.625918e-03

Тоді є sin2величина, яка є висотою rpvi(наприклад), але ця міра зовсім не є змінною, яка найбільш близька до першого компонента.

Variables
           Dim.1    ctr   cos2    Dim.2    ctr   cos2  
rpvi    |  0.939  8.126  0.881 |  0.147  1.020  0.022 |
npvi    |  0.885  7.227  0.784 |  0.075  0.267  0.006 |
cov     |  0.915  7.719  0.837 | -0.006  0.001  0.000 |
jittAbs |  0.939  8.126  0.881 |  0.147  1.020  0.022 |
jitt    |  0.818  6.171  0.669 |  0.090  0.380  0.008 |
rapAbs  |  0.933  8.020  0.870 |  0.126  0.746  0.016 |
rap     |  0.855  6.746  0.732 |  0.040  0.076  0.002 |
ppq5Abs |  0.925  7.884  0.855 |  0.091  0.392  0.008 |
ppq5    |  0.932  8.007  0.868 | -0.035  0.057  0.001 |
ddpAbs  |  0.933  8.020  0.870 |  0.126  0.746  0.016 |
ddp     |  0.855  6.746  0.732 |  0.040  0.076  0.002 |
pa      |  0.265  0.646  0.070 | -0.857 34.614  0.735 |
ps5_12  | -0.524  2.529  0.274 |  0.664 20.759  0.441 |
ps13_20 | -0.459  1.945  0.211 |  0.885 36.867  0.783 |
cov5_x  |  0.660  4.012  0.435 |  0.245  2.831  0.060 |
sd      |  0.936  8.076  0.876 |  0.056  0.150  0.003 |

Отже, на що слід звернути увагу, коли йдеться про асоціацію між змінною та першим компонентом?


1
Точки Althougt на вашій карті (виглядає як завантажувальний сюжет) захаращуються, я б сказав, що сюжет добре відповідає "кореляціям" виводу. Ці "кореляції" - це координати на Dim1. Вони, навантаження, є співвідношеннями між фактором і змінними (коли ви базували свій аналіз на стандартизованих даних = на кореляціях в / з змінних).
ttnphns

Крім відповідей (-ів) нижче, будь ласка, ознайомтесь із цим, щоб отримати додаткові посилання.
ttnphns

Відповіді:


25

Пояснення схеми завантаження PCA або факторного аналізу.

Графік завантаження показує змінні у вигляді точок у просторі основних компонентів (або факторів). Координати змінних, як правило, є навантаженнями. (Якщо ви правильно комбінуєте завантажувальну ділянку з відповідним розсипом випадків даних в одному просторі компонентів, це було б біплот.)

Давайте-як - то корелюють змінні, , W , U . Ми центруємо їх і виконуємо PCA , витягуючи з перших 2 основних компоненти з трьох: F 1 і F 2 . Ми використовуємо навантаження як координати, щоб зробити графік завантаження нижче. Навантаження - це нестандартні елементи власних векторів, тобто власні вектори, наділені відповідними відхиленнями компонентів, або власними значеннями.VWUF1F2

enter image description here

Завантаження сюжету - це площина на малюнку. Розглянемо тільки змінну . Стрілка, звичайно намальована на навантажувальній ділянці, - це те, що тут позначено h ' ; координати a 1 , a 2 - це навантаження V з F 1 і F 2Vha1a2VF1F2 відповідно (будь ласка, знайте, що термінологічно правильніше сказати "компонент завантажує змінну", а не навпаки).

Стрілка є проекцією на площині компонента, вектор ч , який є справжнім станом змінної V в змінних просторі , натягнуте на V , W , U . Квадрат довжини вектора, ч 2 , є дисперсія з V . Тоді як h 2 - частина цієї дисперсії, пояснена двома компонентами.hhVVWUh2aVh2

Завантаження, кореляція, прогнозоване співвідношення . Оскільки змінні були зосереджені до вилучення компонентів, - Пірсонова кореляція між V та компонентом F 1 . Це не слід плутати з cos α на графіку завантаження, що є ще однією величиною: це кореляція Пірсона між компонентом F 1 та змінною, векторованою тут як h ' . Як змінна, h ' - це прогнозування V за (стандартизованими) компонентами в лінійній регресії (порівняйте з малюванням геометрії лінійної регресії тутcosϕVF1cosαF1hhV) де навантаження 's - коефіцієнти регресії (коли компоненти зберігаються ортогонально, як витягнуті).a

Далі. Ми можемо пам’ятати (тригонометрія), що . Його можна розуміти як скалярний добуток між вектором V та вектором довжини одиниці F 1 : h 1 cos ϕ . F 1 встановлює цей одиничний дисперсійний вектор, оскільки він не має власної дисперсії, окрім тієї дисперсії V, яку він пояснює (на суму h ' ): тобто F 1a1=hcosϕVF1h1cosϕF1VhF1це видобуток із V, W, U, а не запрошений із-за межі сторони. Тоді, чітко, -коваріаціяміжVтастандартизованою, одиничною шкалоюb(задатиs1=a1=varVvarF1r=h1cosϕVb) компонентF1. Ця коваріація прямо порівнянна з коваріаціями між вхідними змінними; наприклад, коваріація міжVіWбуде добутком їх довжин вектора, помножених на косинус між ними.s1=varF1=1F1VW

Підсумовуючи: завантаження можна розглядати як коваріацію між стандартизованим компонентом і спостережуваною змінною, h 1 cos ϕ , або еквівалентно між стандартизованим компонентом і поясненим (усіма компонентами, що визначають графік) зображенням змінна, h 1 cos α . Це cos α можна назвати співвідношенням V-F1, спроектованим на компонентний підпростір F1-F2.a1h1cosϕh1cosαcosα

Вищезазначена кореляція між змінною та складовою, , також називається стандартизованим або масштабованим завантаженням . Це зручно в інтерпретації компонентів, оскільки знаходиться в інтервалі [-1,1].cosϕ=a1/h

Ставлення до власних векторів . Масштабірованно- навантаження слід НЕ слід плутати з власним вектором елементом , який - як ми знаємо, - це косинус кута між змінним і основним компонентом. Нагадаємо, що завантаження - це власний векторний елемент, що збільшується на особливе значення компонента (квадратний корінь власного значення). Тобто для змінної V нашої ділянки: a 1 = e 1 s 1 , де s 1 - st. відхилення (не 1, а вихідне, тобто значення однини) F 1cosϕVa1=e1s1s11F1латентна змінна. Тоді виходить, що власний векторний елемент , а не самcosϕ. Плутанина навколо двох слів "косинус" розчиняється, коли ми згадуємо, в якому просторі ми представляємо. Значення власного вектора- цекосинускута поворотузмінної як осі на pr. компонент як вісь у змінному просторі (він же розкидання розсіювача),наприклад, тут. Хочаcosϕна навантажувальній ділянці- це міра подібності косинусуміж змінною як вектор та pr. компонент як ... ну .. як вектор також, якщо вам подобається (хоч це намальовано як вісь на графіці), - адже ми зараз втематичному просторіe1=a1s1=hs1cosϕcosϕcosϕ (який графік завантаження), де співвідносні змінні є вентиляторами векторів - це не ортогональні осі, - а векторні кути є мірою об'єднання - а не обертання бази простору.

В той час як навантаження - це кутова асоціація (тобто скалярний тип продукту), міра асоціації між змінною та одиничною шкалою компонента, а масштабоване навантаження - це стандартизоване навантаження, де масштаб змінної зводиться до одиниці, але коефіцієнт власного вектора - це навантаження, де компонент "завищений", тобто був доведений до масштабу (а не 1); альтернативно, це може розглядатися як масштабоване завантаження, де масштаб змінної був доведений до h / s (замість 1).1/sh/s

Отже, що таке асоціації між змінною та компонентом? Ви можете вибрати те, що вам подобається. Це може бути навантаження (коваріація з одиничною шкалою компонента) ; перемасштабірована завантаження сов ф (= змінна складової кореляція); кореляція між зображенням (передбачення) та компонентом (= прогнозована кореляція cos α ). Ви можете навіть вибрати коефіцієнт власного вектора e = a / s, якщо вам це потрібно (хоча мені цікаво, що може бути причиною). Або винайдіть свій власний захід.a cosϕcosαe=a/s

Значення власного вектора у квадраті має значення внеску змінної в pr. компонент. Налаштоване навантаження в квадраті має значення внеску pr. компонент у змінну.

Ставлення до PCA засноване на кореляціях. Якби ми аналізували PCA не просто центрировані, а стандартизовані (в центрі тоді масштаб одиниці дисперсії), то три вектори змінних (а не їх проекції на площину) були б однакової, одиничної довжини. Потім автоматично випливає, що навантаження - це кореляція , а не коваріація між змінною та компонентом. Але що кореляція НЕ буде дорівнює «стандартизовані навантаження» на зображенні вище (на основі аналізу тільки зосереджених змінних), так як PCA стандартизованих змінних (кореляції на основі PCA) дає різні компоненти , ніж PCA зосереджених змінних ( PCA на основі коваріацій). У кореляційній PCA a 1cosϕ тому що h = 1 , але головні компонентинеєтими самимиосновними компонентами, що ми отримуємо з PCA на основі коваріацій (читати,читати).a1=cosϕh=1

При факторному аналізі ділянка завантаження має в основному ту саму концепцію та інтерпретацію, що й у PCA. Єдина (але важлива ) різниця - це речовина . При факторному аналізі h ' - називається тоді "спільністю" змінної - це частина її дисперсії, що пояснюється загальними факторами, що відповідають за кореляції між змінними. Перебуваючи в PCA, пояснена частина h 'hh hє грубою "сумішшю" - вона частково являє собою кореляцію та частково неспорідненість серед змінних. При факторному аналізі площина навантажень на нашій картині буде орієнтована інакше (насправді вона навіть пошириться з простору наших 3d змінних на 4-й вимір, який ми не можемо намалювати; площина навантажень не буде підпростором нашої 3d простір, що охоплюється та двома іншими змінними), а проекція h ' буде іншої довжини та з іншим кутом α . (Теоретична різниця між PCA та факторним аналізом пояснюється геометрично тут через предметне представлення простору і тут за допомогою змінного представлення простору.)Vhα


Відповідь на запит @Antoni Parellada у коментарях. Еквівалентно, чи хочете ви говорити вдисперсіїабо з точки зорурозсіювання(SS відхилення): дисперсія = розкидання / (n-1), деn- розмір вибірки. Оскільки ми маємо справу з одним набором даних з тим самимn, константа нічого не змінює у формулах. ЯкщоXє даними (зі змінними V, W, U), то ейгендекомпозиція матриці коваріації (A) коваріації дає ті самі власні значення (дисперсії компонентів) та власні вектори, як ейгендекомпозиція (B) матриці розсіювання X Xa,b/(n1)nnXXXотриманий після початкового поділу на X фактор. Після цього у формулі завантаження (див. Середній розділ відповіді)a1=hs1cosϕ, термінh-st. відхиленняn1a1=hs1cosϕh в (A), але розсіювання коренів (тобто норма)Vв (B). Термінs1, що дорівнює1,-стандартизованийкомпонентF1. відхиленняvarVVs11F1 in (A), але розсіювання кореняF1in (B). Нарешті,cosϕ=r- кореляція, нечутливадо використанняn-1у своїх обчисленнях. Таким чином, ми простоговоримоконцептуально про відхилення (А) або про розсіювання (В), тоді як самі значення залишаються однаковими у формулі в обох випадках.varF1F1cosϕ=rn1


α

@ssdecontrol, я додав рядок про це.
ttnphns

a1=varVvarF1r=h1cosϕr=cosϕvarF1=1varV=hh=V=x2varV=x2n1

1
@AntoniParellada, будь ласка, перевірте виноску.
ttnphns

1
F1
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.