Використання кореляції як метрики відстані (для ієрархічної кластеризації)


22

Я хотів би ієрархічно кластеризувати свої дані, але замість того, щоб використовувати евклідову відстань, я хотів би використовувати кореляцію. Крім того, оскільки коефіцієнт кореляції коливається від -1 до 1, причому як -1, так і 1 позначають "співрегуляцію" в моєму дослідженні, я розглядаю як -1, так і 1 як d = 0. Отже, мій розрахунок становить d=1|r|

В окремому запитанні (щодо кластеризації k-значень) я читав, що ви повинні перетворити r в справжній евклідовий d, використовуючи теорему косинусу:d=2(1r)

Який найбільш точний спосіб перетворення кореляції на відстань для ієрархічної кластеризації?


3
Так, одним із можливих - і геометрично правдивим способом - є остання формула. Але ви можете знехтувати знаком якщо він має сенс для вас, так що . У більшості випадків ви можете скинути безпечно, не впливаючи на результати кластеризації. Відстань можна трактувати як евклідовий квадрат . У цій темі йшлося про те, чи є метричні відстані перетвореними кореляційними заходами. d 2 = 2 ( 1 - | r | ) 2rd2=2(1|r|)2
ttnphns

2
Крім того, вам не потрібно завжди перетворювати у лінійну несхожість, таку як евклідова відстань. Не так рідко люди кластеризуються безпосередньо на абояк щодо подібності, це кутова схожістьr | r |rr|r|
ttnphns

Відповіді:


21

Вимоги до ієрархічної кластеризації

Ієрархічна кластеризація може використовуватися при довільній мірі подібності та несхожості. (Більшість інструментів очікують різниці, але дозволять отримати негативні значення. Ви самі переконаєтесь, чи будуть надані переваги малі чи великі значення.)

Тільки методи, засновані на центроїдах або дисперсії (такі як метод Уорда), є спеціальними, і їх слід застосовувати з квадратом Евкліда. (Щоб зрозуміти чому, будь ласка, уважно вивчіть ці зв’язки.)

Однозв'язний, середній зв'язок, повний зв'язок не сильно впливають, все одно це буде мінімум / середній / максимум парних відмінностей.

Кореляція як міра відстані

Якщо ви попередньо обробляєте свої дані ( спостережень, функцій) таким чином, що кожна функція має та (що відключає постійні функції!), То кореляція зводиться до косинусу:npμ=0σ=1

Кор(Х,Y)=Ков(Х,Y)σХσY=Е[(Х-мкХ)(Y-мкY)]σХσY=Е[ХY]=1нХ,Y

За тих самих умов відстань у квадраті Евкліда також зменшується до косинусу:

гЕвклід2(Х,Y)=(Хi-Yi)2=Хi2+Yi2-2ХiYi=2н-2Х,Y=2н[1-Кор(Х,Y)]

Тому, якщо ваші дані не вироджуються, використання кореляції для ієрархічної кластеризації повинно бути добре. Просто попередньо обробіть його, як пояснено вище, а потім використовуйте квадратну евклідову відстань.


1
Only ward's method is special, and should be used with squared Euclidean. Не тільки Уорда. Будь-який метод обчислення центроїдів або відхилення від центроїдів потребує евклідової або квадратної евклідової (залежно від реалізації) відстані, задля геометричної точності. При втраті таких та належному попередженні їх можна використовувати з іншими метричними відстанями. Ці методи - це центроїда, "медіана", варда, дисперсія (не плутати з Вардом!) Та деякі інші.
ttnphns

Дякую, я це зрозумів. Я не знав цих варіацій, я думав лише про одиночний / середній / повний / прихований.
Аноні-Мус

1
У цій публікації багато помилок друку та невизначених виразів! Чи можете ви, будь ласка, переглянути його, виправити його та пояснити, що таке " " і на що може посилатися " "? D i m,гiм
whuber
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.