Порівняння кластеризації: Індекс Rand та Варіації інформації


21

Мені було цікаво, чи хтось мав уявлення чи інтуїцію за різницею між варіацією інформації та індексом Rand для порівняння кластерів.

Я прочитала документ " Порівняння кластерів - відстань, заснована на інформації " Марини Меліа (Journal of Multivariate Analysis, 2007), але, окрім зауваження різниці у визначеннях, я не розумію, що це за зміна інформації фіксує, що індекс rand не фіксує.

Відповіді:


8

Різниця між двома методами незначна. Найкращий спосіб подумати над цим - розглянути решітки, визначені операцією злиття-розділення на кластеризації. Обидва ці заходи можна реконструювати, визначивши функцію на кластеризації, а потім визначивши відстань між двома кластеризами за формулою:f

де C C - з'єднання двох кластерів у ґратці.

г(С,С')=f(С)+f(С')-2f(СС')
СС'

Тепер нехай і нехай n i = | C i | . Встановлення f ( C ) = n 2 i дає індекс rand, а встановлення f ( C ) = n i log n i дає VI.С={С1,С2,,Ск}нi=|Сi|f(С)=нi2f(С)=нiжурналнi


Спасибі Суреш! Чи знаєте ви, чи (і як) різниця в цих формулах пояснює, чому індекс rand та зміна інформації карають послідовність (наскільки одна з кластеризації є субкластеризацією інших) між кластерами по-різному? (за повідомленням micans'answer)
Амеліо Васкес-Рейна

2
Як зазначає міккан, індекс Rand має квадратичну поведінку, тому він більш чутливий до змін утримування, ніж функція ентропії, близька до лінійної.
Суреш Венкатасубраманян

Вибачте, але я досі не бачу, як стримування впливає на квадратичні терміни більше, ніж інші типи розбіжностей між кластерами. Ви б не хотіли детальніше зупинитися на цьому?
Амеліо Васкес-Рейна

@ user023472 Привіт користувачу023472. Мене цікавлять ваші висновки, ви задали це питання деякий час тому, здається. Чи дізналися ви, що насправді становить різниця між двома методами? Спасибі.
Creatron

14

На мою думку, є величезні відмінності. На індекс Rand дуже сильно впливає деталізація кластерів, на яких він працює. Далі я буду використовувати відстань Міркіна, яка є скоригованою формою індексу Rand (легко зрозуміти, але побачити, наприклад, Meila). Я також буду використовувати відстань розділення / приєднання, про яку також згадується в деяких документах Мейли (відмова від відповідальності: дистанція розділення / приєднання була запропонована мною). Припустимо, Всесвіт із ста стихій. Я буду використовувати Top для позначення кластеризації одним кластером, що містить усі елементи, знизу для позначення кластеризації, де всі вузли знаходяться в окремих сингтонних множинах, зліва для позначення кластеризації {{1,2, .. 10}, {11, 12..20}, {21,22..30}, ..., {91,92, .. 100}} і право позначити кластеризацію {{1,11, .. 91}, {2, 12, .. 92}, {3,13, .. 93}, ..., {10,20, .. 100}}.

На мій погляд, знизу і верх є послідовними (гніздовими) кластерами, тоді як лівий і правий є максимально конфліктуючими кластерами. Відстані від згаданих показників для цих двох парних порівнянь такі:

               Top-Bottom     Left-Right 

Mirkin            9900          1800
VI                4.605         4.605
Split/join        99            180

Звідси випливає, що Міркін / Ранд розглядають послідовну пару верхнього низу набагато далі, ніж максимально суперечлива пара ліво-право. Це надзвичайний приклад для ілюстрації суті, але Міркін / Ранд, як правило, сильно впливає на деталізацію кластерів, на яких він працює. Причиною, що лежить в основі цього, є квадратична залежність між цією величиною метрики та кластера, що пояснюється тим, що бере участь підрахунок пар вузлів. Насправді відстань Міркіна - це відстань Хеммінга між крайовими наборами об'єднань повних графіків, індукованих кластеризацією (я думаю, це відповідь на ваше запитання).

Що стосується відмінностей між варіацією інформації та розділенням / приєднанням, перший є більш чутливим до певних конфліктних ситуацій, як показала Мейла. Тобто, Split / Join розглядає лише найкращу відповідність для кожного кластеру і ігнорує фрагментацію, яка може виникнути на решті частини цього кластера, тоді як варіація інформації підбере це. Однак, Split / Join легко інтерпретується як кількість вузлів, які потрібно перемістити, щоб отримати один кластер з іншого , і в цьому сенсі його діапазон легше зрозуміти; на практиці питання фрагментації також може бути не таким поширеним.

Кожна з цих метрик може бути сформована як сума двох відстаней, а саме відстаней від кожного з двох кластерів до їх найбільшого загального підкластеру. Я вважаю, що часто вигідніше працювати з цими окремими частинами, а не просто з їх сумою. Потім наведена вище таблиця стає:

               Top-Bottom     Left-Right 

Mirkin          0,9900          900,900
VI              0,4.605       2.303,2.303
Split/join      0,99             90,90

Співвідношення підзарядки між Топом і Низом стає негайно зрозумілим. Часто буває дуже корисно знати , є чи два кластеризації є послідовними (тобто один є (майже) а subclustering інших) в якості релаксації питання , чи є вони близькі . Кластеризація може бути досить далекою від золотого стандарту, але все ж бути послідовною або майже послідовною. У такому випадку може бути ніяких причин вважати кластеризацію поганою щодо цього золотого стандарту. Звичайно, тривіальні кластеризація Top і Bottom будуть узгоджуватися з будь-якими кластеризаціями, тому це потрібно враховувати.

Нарешті, я вважаю, що такі показники, як Міркін, Варіація інформації та Розділити / Приєднатись, є природним інструментом порівняння кластеризації. Для більшості застосувань методи, які намагаються включити статистичну незалежність і виправити випадковість, надмірно придумані і придумані, а не уточнюючі.

Другий приклад Розглянемо наступні пари кластеризації: C1 = {{1, 2, 3, 4, 5, 6, 7, 8}, {9, 10, 11, 12, 13, 14, 15, 16}} з C2 = {{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}, {11, 12, 13, 14, 15, 16}}

і C3 = {{1, 2, 3, 4}, {5, 6, 7, 8, 9, 10}, {11, 12, 13, 14, 15, 16}} з {{1, 2, 3 , 4}, {5, 6, 7, 8, 9, 10, 11, 12}, {13, 14, 15, 16}}

Тут С2 може бути сформований із С1 шляхом переміщення вузлів 9 і 10, а С3 може бути сформований із С3 шляхом переміщення вузлів 11 і 12. Обидва зміни однакові ("переміщення двох вузлів"), за винятком того, що розміри задіяних кластерів різняться . Таблиця показників кластеризації для цих двох прикладів:

            C1-C2         C3-C4

Mirkin       56            40 
VI            0.594         0.520
Split/Join    4             4

Видно, що на Міркін / Ранд та Варіювання інформації впливають розміри кластерів (а Міркін більшою мірою; це буде більш виражено, коли розміри кластерів розходяться), тоді як відстань Спліт / Приєднання - не (її значення 4 оскільки він "переміщує" вузли від однієї кластеризації до іншої завжди через найбільшу загальну підкластеризацію). Це може бути бажаною ознакою залежно від обставин. Просту інтерпретацію Split / Join (кількість вузлів для переміщення) та її незалежність від розміру кластера варто пам’ятати. Між Міркіним та варіацією інформації, я думаю, що остання дуже краща.


Дякую мікроанам, це дуже проникливо. Я не впевнений, що зрозумів другу таблицю. Чому для кожного запису в таблиці є два числа, розділені комою? Також, чи знаєте ви, як цей аргумент стосується @ Suresh's?
Амеліо Васкес-Рейна

1
Якщо A і B є кластеризацією, то d (A, B) можна розділити як d (A, B) = d (A, X) + d (B, X), де X є найбільшим кластером, який є підкластером і те й інше. У позначенні Суреша маємо, що d (A, B) = f (A) + f (B) -2f (X). Це можна переписати як f (A) + f (X) -2f (X) + f (B) + f (X) -2f (X) = d (A, X) + d (B, X). Вище я записав два компоненти d (A, X) і d (B, X), розділені комами. Найбільша різниця між ними на сьогоднішній день - це квадратичні характеристики Міркіна / Ранда. Якщо ви подивитеся на приклади верхній / нижній і лівий / правий, відстань у верхній і нижній частині величезна; це повністю пов'язано з розміром Top.
мікан
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.