Чи існує інтуїтивна інтерпретація для матриці даних ?


107

Для даної матриці даних (зі змінними в стовпцях та точками даних у рядках), схоже, відіграє важливу роль у статистиці. Наприклад, це важлива частина аналітичного рішення звичайних найменших квадратів. Або, для PCA, його власні вектори є основними компонентами даних.А Т АAATA

Я розумію, як обчислити , але мені було цікаво, чи існує інтуїтивна інтерпретація того, що представляє ця матриця, що призводить до її важливої ​​ролі?ATA


2
Деяка інтуїція може бути надана аналізом на сайті stats.stackexchange.com/a/66295/919 .
whuber

Відповіді:


125

Геометрично матрицю називають матрицею скалярних добутків (= крапкові продукти, = внутрішні продукти). Алгебраїчно його називають матрицею суми квадратів і перехресних продуктів ( SSCP ).AA

Її -й діагональний елемент дорівнює , де позначає значення в -му стовпці а - сума в рядках. -го недіагональних елемента в ній є .a 2 ( i ) a ( i ) i Aia(i)2a(i)iAi j a ( i ) a ( j )ija(i)a(j)

Існує ряд важливих коефіцієнтів асоціацій, і їх квадратні матриці називаються кутовими подібностями або подібністю типу SSCP:

  • Розділивши матрицю SSCP на , розмір вибірки або кількість рядків , ви отримаєте матрицю MSCP (середній квадрат-перехресний продукт). Паралельна формула цієї міри асоціації є, отже, (вектори і - пара стовпців з ).A x ynA xyAxynxyA

  • Якщо ви центрування стовпців (змінні) , то є розкид (або спільно розсіює, якщо бути строгими) матриця і є коваріація матриця. Паралельна формула коваріації - із та що позначають централізовані стовпці.A A A A / ( n - 1 ) c x c yAAAAA/(n1) cxcycxcyn1cxcy

  • Якщо z- стандартизувати стовпці (відняти середнє значення стовпця та ділити на стандартне відхилення), то є матрицею кореляції Пірсона : кореляція є коваріацією для стандартизованих змінних. Паралельна формула кореляції - із та що позначають стандартизовані стовпці. Кореляцію називають також коефіцієнтом лінійності.A A / ( n - 1 ) z x z yAAA/(n1) zxzyzxzyn1zxzy

  • Якщо ви Unit- масштаб стовпці (довести їх СС, сума-квадрати, 1), то є косинус матриці подібності. Таким чином, еквівалентна парна формула здається з та що позначають що нормалізуються L2 . Подібність косину також називають коефіцієнтом пропорційності.A A u x u y = x yAAA uxuyuxuy=xyx2y2uxuy

  • Якщо ви відцентруєте, а потім стовпці масштабу , то - знову матриця кореляції Пірсона , оскільки кореляція є косинусом для централізованих змінних :A A 1 , 2c u x c u y = c x c yAAA1,2cuxcuy=cxcycx2cy2

Поряд із цими чотирма основними заходами асоціації згадаємо ще деякі інші, також засновані на , щоб це. Їх можна розглядати як заходи, альтернативні подібності косинусу, оскільки вони приймають різну від неї нормалізацію, знаменник у формулі:AA

  • Коефіцієнт тотожності [Zegers & ten Berge, 1985] має свій знаменник у вигляді середнього арифметичного, а не середнього геометричного: . Це може бути 1, якщо і тільки якщо порівнювані стовпці однакові. Axy(x2+y2)/2A

  • Інший корисний коефіцієнт, як він називається коефіцієнтом подібності : .xyx2+y2xy=xyxy+(xy)2

  • Нарешті, якщо значення в неотрицательні і їх сума в стовпцях дорівнює 1 (наприклад, вони пропорції), то - матриця вірності або коефіцієнт Бхаттачарія .AAA


1 Один із способів також обчислити кореляційну або коваріаційну матрицю, використовувану багатьма статистичними пакетами, обходить центрирування даних і відходить прямо від матриці SSCP таким чином. Нехай - вектор рядків суми стовпців даних а - кількість рядків у даних. Тоді (1) обчисліть матрицю розсіювання як звідси буде матрицею коваріації]; (2) діагональ - це суми квадратних відхилень, вектор рядка ; (3) обчислити матрицю кореляції .AAsAnC=AAss/nC/(n1)CdR=C/dd

2 Гострому, але статистично початківцю читачеві може бути важко узгодити два визначення кореляції - як "коваріація" (що включає усереднення за розміром вибірки, поділ на df = "n-1") і як "косинус" (що означає такого усереднення немає). Але насправді в першій формулі кореляції не відбувається реального усереднення. Річ у тім, що вул. відхилення, за допомогою якого була досягнута z-стандартизація, у свою чергу обчислювались діленням тим самим df ; і тому знаменник "n-1" у формулі кореляції як коваріації цілком скасовується, якщо розгортати формулу: формула перетворюється на формулу косинуса . Для обчислення значення емпіричної кореляції вам дійсно не потрібно знатиn (за винятком обчислення середнього значення по центру).


42

Матриця містить всі скалярні твори всіх стовпців в . Діагональ, таким чином, містить квадратні норми стовпців. Якщо ви думаєте про геометрію та ортогональні проекції на простір стовпців, що перетинається стовпцями в ви можете згадати, що норми та внутрішні добутки векторів, що охоплюють цей простір, відіграють центральну роль в обчисленні проекції. Регресію найменших квадратів, а також основні компоненти можна зрозуміти з ортогональних проекцій.ATAAA

Також зауважимо, що якщо стовпці є ортонормальними, утворюючи таким чином ортонормальну основу для простору стовпців, то матриця тотожності.AATA=I


39

@NRH дав хорошу технічну відповідь.

Якщо ви хочете чогось насправді базового, ви можете вважати як еквівалент матриці для скаляра.ATAA2


5
Хоча інші відповіді більш "технічно" правильні, це найбільш інтуїтивна відповідь.
CatsLoveJazz

3

Важливий погляд на геометрію полягає в цьому (точка зору, сильно підкреслена в книзі про "Лінійну алгебру та її застосування"): Припустимо, A є -матрицею рангу k, що представляє собою лінійну карту . Нехай Col (А) і рядки (А) стовпці і рядки простір . ТодіAAm×nA:RnRmA

(a) Як справжня симетрична матриця, має основу власних векторів з ненульовими власними значеннями . Таким чином:(AA):RnRn{e1,...,en}d1,,dk

(AA)(x1e1++xnen)=d1x1e1+...+dkxkek .

(b) Діапазон (A) = Col (A), за визначенням Col (A). Отже A | Рядок (A) відображає рядок (A) у Col (A).

(c) Ядро (A) є ортогональним доповненням рядка (A). Це пояснюється тим, що множення матриці визначається через точки крапкових добутків (рядок i) * (col j). (ОтжеAv=0v is in Kernel(A)vis in orthogonal complement of Row(A)

(d) і - ізоморфізм .A(Rn)=A(Row(A))A|Row(A):Row(A)Col(A)

Reason: If v = r+k (r \in Row(A), k \in Kernel(A),from (c)) then
A(v) = A(r) + 0 = A(r) where A(r) = 0 <==> r = 0$.

[Між іншим, підтверджує, що рядок ряду = Ранг стовпця!]

(e) Застосування (d), - це ізоморфізмA|:Col(A)=Row(A)Col(A')=Row(A)

(f) За (d) та (e): і A'A відображає рядок (A) ізоморфно на рядок (A).AA(Rn)=Row(A)


2
Ви можете докласти формулу в $ і $, щоб отримати . LATEX
Placidia

2

Хоча вже обговорювалося, що має значення приймати крапкові добутки, я б додав лише графічне зображення цього множення.ATA

Дійсно, хоча рядки матриці (і стовпці матриці ) представляють змінні, ми розглядаємо кожне вимірювання змінної як багатовимірний вектор. Множення рядка з з колонки з еквівалентна взявши скалярний добуток двох векторів: - в результаті чого вхід в позиції всередині матриці .ATArowpATcolpAdot(rowp,colp)(p,p)ATA

Аналогічним чином , множачи рядок з з колонки з еквівалентна добутку точки: , в результаті в положенні .pATkAdot(rowp,colk)(p,k)

Запис отриманої матриці має значення того, скільки векторний знаходиться у напрямку вектора . Якщо скалярний добуток двох векторів і відмінний від нуля, деякі відомості про векторної буде здійснюватися вектором , і навпаки.(p,k)ATArowpcolkrowicoljrowicolj

Ця ідея відіграє важливу роль в аналізі головних компонентів, де ми хочемо знайти нове представлення нашої початкової матриці даних таким чином, що більше жодної інформації про жоден стовпець в будь-якому іншому стовпці . Вивчаючи PCA глибше, ви побачите, що «нова версія» коваріаційної матриці обчислюється і вона стає діагональною матрицею, яку я залишаю вам усвідомити, що ... це справді означає те, що я висловив у попередньому реченні.Aiji

введіть тут опис зображення


1

Є рівні інтуїції. Для тих, хто знайомий з інстатистикою матричних позначень, інтуїція полягає в тому, щоб розглядати це як квадрат випадкової величини: протиxE[x2]AATA

У матричній нотації зразок випадкової змінної спостережень або сукупності представлений вектором стовпця:xxi

a=[x1x2xn]

Отже, якщо ви хочете отримати середнє значення вибірки квадрата змінної , ви просто отримаєте крапковий добуток , який у позначенні матриці такий же, як .x

x2¯=aan
ATA

Зауважте, що якщо середнє значення вибірки змінної дорівнює ZERO, то дисперсія дорівнює середньому квадрату: , аналогічному . Це причина, чому в PCA вам потрібна нульова середня величина, і чому з'являється , зрештою, PCA має розкласти матрицю дисперсії набору даних.σ2=E[x2]ATAATA

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.