Які відстані між змінними, що складають коваріаційну матрицю?


11

Я маю коваріаційну матрицю і хочу розділити змінні на кластери за допомогою ієрархічної кластеризації (наприклад, для сортування матриці коваріації).kн×нк

Чи існує типова функція відстані між змінними (тобто між стовпцями / рядками матриці квадратної коваріації)?

Або якщо їх більше, чи є хороша довідка по темі?


Чому ви хочете використовувати ієрархічну кластеризацію змінних? Як правило, ми думаємо про матрицю даних , w / змінних у стовпцях та спостереження у рядках. Якщо ви хочете шукати приховану групування, ви можете спробувати, наприклад, ієрархічну кластеризацію за рядками / спостереженнями, або, наприклад, факторний аналіз на стовпчиках / змінних. Х
gung - Відновіть Моніку

@ Piotr, Так, коваріацію (або кореляцію чи косинус) можна легко і природно перетворити на евклідову відстань, оскільки це скалярний добуток (= схожість кутового типу). Знання коваріації між двома змінними, а також їх відхилення автоматично передбачає знання d між змінними: . г2=σ12+σ22-2cоv
ttnphns

Зауважте, ця формула означає, що негативна коваріація більша за відстань, ніж позитивна коваріація (і це справді так з геометричної точки зору). Якщо ви не хочете, щоб знак коваріації відігравав роль, скасуйте негативний знак.
ttnphns

@gung Це симетрична матриця, тому рядки ~ стовпці. Для мене важливо розділити його на набори змінних, а не «обертати» їх факторним аналізом (насправді я працюю не зі стандартною доменною матрицею, а зі складною (матриця щільності в квантовій механіці)).
Піотр Мігдал

@ttnphns Дякую Мене хвилює те, що я хочу відокремити некорельовані змінні - негативна кореляція для мене (майже) така ж хороша, як і позитивна.
Пьотр Мігдал

Відповіді:


13

Коваріацію (або кореляцію чи косинус) можна легко і природно перетворити на евклідову відстань за допомогою закону косинусів , оскільки це скалярний добуток (= подібність на основі кута) в евклідовому просторі. Знання коваріації між двома змінними i та j , а також їх відхилення автоматично передбачає знання d між змінними: . (Що d 2 i jгij2=σi2+σj2-2cоvijгij2прямо пропорційна звичайній відстані евклідового квадрата : ви отримуєте останнє, якщо замість дисперсій та коваріації використовуєте суми квадратів та суму перехресних продуктів. Обидві змінні повинні бути звичайно зосереджені спочатку: говорити про "коваріації" - це псевдонім для роздумів про дані з вилученими засобами.)

Зауважимо, ця формула означає, що від'ємна коваріація більша відстань, ніж позитивна коваріація (і це справді так з геометричної точки зору, тобто коли змінні розглядаються як вектори в предметному просторі ). Якщо ви не хочете, щоб знак коваріації відігравав роль, скасуйте негативний знак. Ігнорування негативного знаку не є операцією «латання рукою», і це потрібно, коли це потрібно: якщо матриця cov є позитивно визначеною, abs (cov) матриця буде також позитивно визначеною; і отже, відстані, отримані за вищенаведеною формулою, будуть істинними евклідовими відстанями (евклідова відстань - це особливий вид метричної відстані).

Евклідові відстані є універсальними щодо ієрархічної кластеризації : будь-який метод такої кластеризації є дійсним або евклідовим, або квадратним евклідовим d . Але деякі методи, наприклад, середня або повна зв'язок, можуть використовуватися з будь-якою несхожістю або подібністю (не тільки з метричними відстанями). Таким чином, ви можете використовувати такі методи безпосередньо з cov або abs (cov) матрицею або - лише наприклад - з max (abs (cov)) - abs (cov) дистанційною матрицею. Звичайно, результати кластеризації потенційно залежать від точного характеру використовуваної (не) подібності.


гij2гij2

@HelloGoodbye, так, я маю на увазі дві змінні (вектори) з рівними засобами - власне, із засобами, вилученими, в першу чергу.
ttnphns

3

Чому б не використовувати матрицю кореляції для кластеризації? Припускаючи, що ваші випадкові змінні центрируються, обчислюючи співвідношення між змінними, ви обчислюєте відстань подібності косинусу . Ця відстань також згадується у вашому посиланні. Ця відстань може бути використана для ієрархічної кластеризації. Чим менша схожість на 1 - | косинус, тим більше схожі ваші змінні.


г(i,j)=1-Аij2/(АiiАjj)

3
Ах, вибачте за непорозуміння. Найкраще джерело, про яке я знаю, це це . Вони вивчають якість кількох метрик (які використовують кореляцію) з ієрархічною кластеризацією. Для ієрархічної кластеризації я зазвичай пробую багато показників і бачу, що найкраще підходить для моєї конкретної мети та даних.
Хорхе Бануелос

Здається, посилання вже не працює?
Матифу
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.