Інтерпретація графіків аналізу 2D відповідності


19

Я шукав в Інтернеті далеко і широко ... Мені ще належить знайти дійсно хороший огляд того, як інтерпретувати сюжети 2D-аналізу кореспонденції. Чи може хтось запропонувати поради щодо тлумачення відстаней між точками?

Можливо, приклад допоможе, ось сюжет, який можна знайти на багатьох веб-сайтах, які я бачив, і обговорюють аналіз листування. Червоні трикутники представляють колір очей, а чорні крапки - колір волосся.

alt текст

Переглядаючи графік вище, ви могли б зробити кілька тверджень про те, що ви бачите в цих даних. Цікаві точки зору різних розмірів та взаємозв'язків між трикутниками та крапками?

Пояснення стовпців у віршах-точках та використання слова "профіль" з особливим акцентом на прикладі було б важливим.


1
На додаток до відмінного звіту @ chl нижче, розгляньте також цей, який розглядає прості CA та PCA як просто форми "аналізу біплотів".
ttnphns

Відповіді:


24

По-перше, існують різні способи побудови так званих біплотів у разі аналізу кореспонденції. У всіх випадках основна ідея полягає у пошуку способу показати найкраще 2D-наближення "відстаней" між клітинками рядків та комірками стовпців. Іншими словами, ми шукаємо ієрархію (ми також говоримо про "ординацію") взаємозв'язків між рядками та стовпцями таблиці обставин.

Дуже коротко, CA розбиває статистику хі-квадрата, пов'язану з двосторонньою таблицею, на ортогональні коефіцієнти, що дозволяють максимально розділити між балами рядків і стовпців (тобто частоти, обчислені з таблиці профілів). Тут ви бачите, що існує деякий зв'язок з PCA, але мірою дисперсії (або метрикою), збереженою в CA, є , що залежить тільки від профілів стовпців (оскільки це має тенденцію надавати більше значення модальностям, які мають великі розміри граничні значення, ми також можемо переоцінити початкові дані, але це вже інша історія).χ2

Ось більш детальна відповідь. Реалізація, що пропонується у corresp()функції (in MASS), випливає з розгляду CA як розкладання SVD матричних кодованих матриць, що представляють рядки та стовпці (такі, що , - загальна вибірка). Про це свідчить канонічний кореляційний аналіз. На відміну від цього, французька школа аналізу даних розглядає CA як варіант PCA, де ви шукаєте напрямки, які максимально збільшують "інерцію" у хмарі даних. Це робиться шляхом діагоналізації інерційної матриці, обчисленої з центрированої та масштабованої (за маргінальними частотами) двосторонньої таблиці, та вираження профілів рядків та стовпців у цій новій системі координат.RtC=NN

Якщо ви вважаєте таблицю з стовпцями рядки та , кожен рядок зважується відповідною граничною сумою, яка дає ряд умовних частот, пов'язаних з кожним рядком: . Граничний стовпчик називається середнім профілем (для рядків). Це дає нам вектор координат, який також називають профілем (за рядком). Для стовпця маємо . В обох випадках профілі рядків (пов'язані з їх масою ) будемо розглядати як особи в просторі стовпців, а також профілі стовпців (пов'язані з їхньою вагоюi=1,,Ij=1,,Jfj|i=nij/nifi|j=nij/njIfiJfj ) як особи в просторі рядків. Метрик, який використовується для обчислення близькості між будь-якими двома особами, - це відстань . Наприклад, між двома рядами і нас єχ2ii

dχ22(i,i)=j=1Jnnj(nijninijni)2

Ви також можете побачити зв'язок зі статистикою , зазначивши, що це просто відстань між спостережуваними та очікуваними підрахунками, де очікувані підрахунки (під , незалежність двох змінних) обчислюються як для кожної комірки . Якби дві змінні мали бути незалежними, профілі рядків були б рівними та однаковими відповідному граничному профілю. Іншими словами, коли існує незалежність, ваша таблиця надзвичайних ситуацій повністю визначається її межами.H 0 n i × n j / n ( i , j )χ2H0ni×nj/n(i,j)

Якщо ви реалізуєте PCA на профілях рядків (розглядається як особи), замінюючи евклідову відстань наcos 2 i j χ 2χ2відстань, то ви отримуєте свій CA. Перша головна вісь - це лінія, яка є найближчою до всіх точок, а відповідне власне значення - це інерція, пояснена цим виміром. Можна зробити те ж саме з профілями стовпців. Можна показати, що між двома підходами існує симетрія, а точніше, що основні компоненти (ПК) для профілів стовпців пов'язані з тими ж власними значеннями, що й ПК для профілів рядків. На біплоті показано координати індивідів у цій новій системі координат, хоча індивіди представлені в окремому просторі. За умови, що кожен індивід / модальність добре представлений у своєму факторіальному просторі (ви можете подивитися наcos2модальності з 1-ою головною віссю, яка є мірою кореляції / асоціації), ви навіть можете інтерпретувати близькість між елементами та вашої таблиці непередбачених ситуацій (як це можна зробити, переглянувши залишки вашого тест на незалежність, наприклад ).ijχ2chisq.test(tab)$expected-chisq.test(tab)$observed

Загальна інерція вашої СА (= сума власних значень) є статистикою поділеною на (що є Пірсоном ). n ϕ 2χ2nϕ2

На насправді, є кілька пакетів , які можуть надати вам розширений УЦ по порівнянні з функцією , доступною в MASSупаковці: ade4 , FactoMineR , Anacor і ки .

Останній є той , який був використаний для конкретної ілюстрації, і документ був опублікований в журналі статистичного програмного забезпечення , який пояснює більшість його functionnalities: Аналіз відповідності в R з Дво- і тривимірна графіка: В ча пакета .

Отже, ваш приклад щодо кольорів очей / волосся можна відтворити багатьма способами:

data(HairEyeColor)
tab <- apply(HairEyeColor, c(1, 2), sum) # aggregate on gender
tab

library(MASS)
plot(corresp(tab, nf=2))
corresp(tab, nf=2)

library(ca)
plot(ca(tab))
summary(ca(tab, nd=2))

library(FactoMineR)
CA(tab)
CA(tab, graph=FALSE)$eig  # == summary(ca(tab))$scree[,"values"]
CA(tab, graph=FALSE)$row$contrib

library(ade4)
scatter(dudi.coa(tab, scannf=FALSE, nf=2))

У всіх випадках те, що ми читаємо в отриманому біплоті, в основному (я обмежую свою інтерпретацію першою віссю, яка пояснювала більшу частину інерції):

  • перша вісь підкреслює чітке протиставлення між світлим і темним кольором волосся, а також між блакитними та карими очима;
  • люди зі світлим волоссям, як правило, також мають блакитні очі, а люди з чорним волоссям, як правило, мають карі очі.

Існує багато додаткових ресурсів для аналізу даних у лабораторії біоінформатики з Ліона, у Франції. Це здебільшого французькою мовою, але я думаю, це не було б для вас занадто великою проблемою. Наступні два подачки повинні бути цікавими для початку:

Нарешті, коли ви розглядаєте повне некон'єктивне (фіктивне) кодування змінних, ви отримуєте аналіз множинної відповідності .k


1
@Brandon 1-а вісь - це вісь «домінування» (світла -> темна) для обох модальностей, але ми також можемо бачити, що 1-а вісь протиставляє блакитні та зелені очі карим та ліщина (їх координати мають протилежні знаки), і червоне волосся / зелені очі комбінація - що досить рідко - в основному сприяє осі 2 фактора. Оскільки ця вісь пояснює лише 9,5% від загальної інерції, досить важко зробити тверді висновки (наприклад, генетичні гіпотези).
chl

1
@Brandon Ще два посилання (на цей раз англійською мовою): курс PBIL ( j.mp/cHZT7X ) та ресурси Michael Friendly ( пакети j.mp/cYHyVn + vcdта vcdExtraR, останні включаючи гарну віньєтку).
chl

2
@Brandon Так, одна модальність = одна категорія для вашої змінної. Що стосується Вашого 2-го питання, corчи відповідає кореляція квадрата з віссю, і ctrце внесок (його потрібно розділити на 10, щоб прочитати як%). Так «руде волосся» сприяє 55,1% інерції 2-ї осі. У певному сенсі я вважав, що вихід FactoMineR є більш "інтуїтивним" ( CA(tab, graph=FALSE)$row$contribдає вам безпосередньо%).
chl

1
@chl: вау, для того, хто нічого не знає про CCA або про "французький шлях", це було чудовим прочитанням! Велике дякую. Я також виявив це з деяким googling, який може зацікавити: www-stat.stanford.edu/~susan/papers/dfc.pdf
ars

1
@ars (+1) Дякую за посилання (не знав про цю монографію, це виглядає цікаво). Найкращі мої рекомендації щодо останніх розробок - це ВСІ статті з Яна де Ліу та ці дві книги: Аналіз множинної кореспонденції та пов'язані з нею методи з Грінакре, та Геометричний аналіз даних: Від аналізу кореспонденції до аналізу структурованих даних від Le Roux & Rouanet (французький шлях) .
chl
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.