Кластеризація за допомогою асиметричних відстаней


9

Як ви кластеризуєте функцію за допомогою асиметричної міри відстані?

Наприклад, скажімо, ви кластеризуєте набір даних із днями тижня як особливістю - відстань з понеділка по п’ятницю не така, як відстань з п’ятниці на понеділок.

Як ви включите це до вимірювання відстані в алгоритмі кластеризації?

Відповіді:


3

Якщо відстань MF несиметричне, оскільки майбутнє відрізняється від минулого, тоді потрібна справжня асиметрична кластеризація. По-перше, слід визначити асиметричну функцію відстані.

Один із способів асиметричної кластеризації, заданої функцією відстані, - вбудовувати вихідні дані в новий простір координат. Див. "Геометричні структури деяких не відстані моделей для асиметричних МДС" Наохіто Чіно та Кенічі Ширайва, Біхевіометрика, 1992 ( pdf ). Це називається HCM (ермітська канонічна модель).

Знайдіть ермітову матрицю , де Знайдіть власні значення та власні вектори, а потім масштабуйте кожен власний вектор за квадратним коренем відповідного власного значення.H

Hij=12[d(xi,xj)+d(xj,xi)]+i12[d(xi,xj)d(xj,xi)]

Це перетворює дані в простір складних чисел. Після вбудовування даних відстань між об'єктами x і y дорівнює просто x * y, де * - кон'югат транспозиції. У цей момент ви можете запустити k-засоби на складні вектори.

Спектральна асиметрична кластеризація також зроблена, див. Тезу Стефана Емілова Атева "Використання асиметрії в спектральному кластеризації траєкторій", Університет Міннесоти, 2011 р., Який дає код MATLAB для спеціального алгоритму.


1

Можна взяти якесь середнє (наприклад, середнє арифметичне або, для розподілу ймовірностей, квадратний корінь розбіжності Йенсена-Шеннона.)


1

Ви повинні ознайомитися з круговою статистикою (якщо ви хочете працювати "протягом" тижня налаштування)


1

Якщо ваша дистанційна функція не є дійсним ядром Mercer, то , де - матриця Грама. У цьому випадку потрібно спільне кластеризацію, також звану бі-кластеризацією. Алгоритми цього класу створюють кластерні індикатори одночасно для рядків та стовпців.XXTX

Наведений вами приклад - результат погано обраної метрики відстані. Кращою метрикою відстані буде|days apart|

Як правило, ваша дистанційна функція повинна бути дійсним ядром Mercer. Дійсна Mercer ядро будь-яка функція приймає два спостереження , що є безперервним, симетрично і має позитивно певну матрицю коваріації .xD

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.