Відстань коваріації / кореляції (= броунівська коваріація / кореляція) обчислюється в наступних кроках:
- Обчислювальна матриця евклідових відстаней між
N
випадками по змінної , а інша також матриця по змінної Y . Будь-яка з двох кількісних ознак, X або Y , може бути багатоваріантною, а не просто одновимірною.XYXY
- Виконайте подвійне центрування кожної матриці. Подивіться, як зазвичай робиться подвійне центрування . Однак, в нашому випадку, коли робить це робити НЕ квадратні відстані спочатку і не ділить на , в кінці кінців. Рядок, значення стовпця та загальне середнє значення елементів стають нульовими.−2
- Помножте дві результативні матриці по елементах і обчисліть суму; або аналогічно, розгорніть матриці на два вектори стовпців і обчисліть їх підсумований перехресний добуток.
- Середнє, ділення на кількість елементів,
N^2
.
- Візьміть квадратний корінь. Результатом є відстань ковариации між і Y .XY
- Відхилення відстаней - це відстані коваріацій , Y з власними "я", ви також обчислюєте їх, точки 3-4-5.XY
- Кореляція відстані отримується з трьох чисел аналогічно тому, як кореляція Пірсона виходить із звичайної коваріації та пари дисперсій: розділіть коваріацію на квадратний корінь добутку на дві дисперсії.
Коваріація відстані (і кореляція) - це не коваріація (або кореляція) між самими відстанями. Саме коваріацію (кореляцію) між спеціальними скалярними добутками (крапковими продуктами) складають матриці "подвійного центру".
У евклідовому просторі скалярний добуток - це подібність, однозначно пов'язана з відповідною відстані. Якщо у вас є дві точки (вектори), ви можете висловити їх близькість як скалярний продукт замість їх відстані, не втрачаючи інформації.
Однак, щоб обчислити скалярний добуток, ви повинні звернутися до точки початку простору (вектори походять від початку). Як правило, можна розмістити походження, де йому подобається, але часто і зручно - розмістити його на геометричній середині хмари точок, середній. Оскільки середнє значення належить до того ж простору, що і той, що охоплюється хмарою, розмірність не набухне.
Тепер звичайне подвійне центрування матриці відстаней (між точками хмари) - це операція перетворення відстаней до скалярних добутків при розміщенні початку в цій геометричній середині. При цьому "мережа" відстаней рівномірно замінюється "сплеском" векторів, певної довжини і парних кутів, від початку:
[Сузір'я на моєму прикладі малюнка є планарним, що дає можливість «змінної», скажімо, це , створивши її двовимірною. Коли X є одноколонною змінною, звичайно, всі точки лежать на одній прямій.]XX
Лише трохи формально про операцію подвійного центрування. Нехай мають n points x p dimensions
дані (у універсальному випадку, ). Нехай D - матриця евклідових відстаней між точками. Нехай C - X із стовпцями по центру. Тоді S = двоцентрове D 2 дорівнює C C ' , скалярні добутки між рядками після хмари точок були центрировані. Основна властивість подвійного центрування полягає в тому, що 1Xp=1
Dn x n
n
CXS=double-centered D2CC′, і ця сума дорівнює сумі запереченням звиключеннядіагональних елементівS.12n∑D2=trace(S)=trace(C′C)S
Повернення до кореляції відстані. Що ми робимо, коли обчислюємо коваріацію відстані? Ми перетворили обидві мережі відстаней у відповідні пучки векторів. Потім ми обчислюємо коваріацію (а згодом і кореляцію) між відповідними значеннями двох пучків: кожне скалярне значення добутку (колишнє значення відстані) однієї конфігурації множиться на відповідну конфігурацію іншої. Це можна розглядати як (як було сказано в пункті 3) обчислення звичайної коваріації між двома змінними після векторизації двох матриць у цих "змінних".
Таким чином, ми ковариваємо дві множини подібності (скалярні добутки, які є перетвореними відстанями). Будь-яка коваріація - це поперечний продукт моментів: ви повинні обчислити ці моменти, відхилення від середнього, по-перше, - і подвійне центрування було таким обчисленням. Це відповідь на ваше запитання: коваріація повинна базуватися на моментах, але відстань - це не моменти.
Додаткове взяття квадратного кореня після (пункт 5) здається логічним, оскільки в нашому випадку момент вже був самим собою як коваріація (скалярний продукт і коваріація є конкурентами структурно), і тому ви отримали такий собі вид, що помножили коваріації двічі. Тому для того, щоб повернутися назад на рівень значень вихідних даних (і щоб можна було обчислити значення кореляції), потрібно взяти корінь згодом.
(0,2)12