Чи повинна відстань бути "метрикою", щоб ієрархічна кластеризація була дійсною на ній?


9

Скажімо, що ми визначаємо відстань, яка не є метрикою , між N елементами.

На основі цієї відстані ми використовуємо агломераційну ієрархічну кластеризацію .

Чи можемо ми використовувати кожен з відомих алгоритмів (одинарне / максимум / авангардний зв’язок тощо), щоб отримати значущі результати? Або по-іншому, в чому проблема їх використання, якщо відстань не є метрикою?


Що таке "предмети" у вашому випадку? (Я запитую, чи має це щось спільне з психометрією, тому що якщо це так, я рекомендував би переглянути кластеризацію елементів , або Revelle, W. Ієрархічний аналіз кластерів та внутрішню структуру тестів , MBR (1979) 14 : 57.)
chl

Відповіді:


7

Вимоги до відстаней залежать від методу ієрархічної кластеризації. Одиночні, повні, середні методи потребують, щоб відстані не були негативними та симетричними. Уордові, центроїдні, медіанні методи потребують (квадратичних) евклідових (що є навіть вужчим визначенням, ніж метричні) відстані для отримання геометрично значущих результатів.

(Можна перевірити, чи є його / її матриця відстані евклідовою, подвоївши її в центрі [див. Мою відповідь тут ] і переглянувши власні значення; якщо негативних власних значень не знайдено, то відстані збігаються в евклідовому просторі.)


Дякую. Подальше запитання: чи має дотримуватися нерівність трикутника для одиночних, повних, середніх методів? і якщо деяка відстань (наприклад) не симетрична, яку проблему вони ставлять перед цими методами? (Спасибі!)
Тал Галілі

1
Класичні ієрархічні методи кластеризації можуть мати не що інше, як симетричну матрицю: відстань від А до В = від В до А. Існують спеціальні інші методи для боротьби з асиметричними (ви можете google). Що стосується трикутної нерівності - це не обов’язкова умова для згаданих вами методів. (Однак загальна мудрість вважає "відстань" як smth з нерівністю, тому варто подумати про нав'язування його, якщо воно відсутнє. Для цього слід повторно додавати невелику константу до відстаней і перевіряти. І якщо ви продовжуєте додавати після досягнення тоді ви незабаром прибудете на евклідові відстані)
ttnphns

5

Ні, відстань не повинна бути показником. Наприклад, це може бути ультраметричний:

d(A,B)max(d(A,C),d(B,C))

Ультраметричні відстані, отримані в результаті послідовних кроків алгоритму кластеризації, можна представити за допомогою дендрограм, які, можливо, ви бачили в цьому контексті.


Дякую, Гонг. Я пам’ятаю, що методи трансформації деяких об'єктів в hclust вимагають, щоб дендрограма була ультраметричною - я думаю, якщо це стосується того, що ви написали. У будь-якому випадку дякую за відповідь.
Тал Галілі
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.