На мою думку, є величезні відмінності. На індекс Rand дуже сильно впливає деталізація кластерів, на яких він працює. Далі я буду використовувати відстань Міркіна, яка є скоригованою формою індексу Rand (легко зрозуміти, але побачити, наприклад, Meila). Я також буду використовувати відстань розділення / приєднання, про яку також згадується в деяких документах Мейли (відмова від відповідальності: дистанція розділення / приєднання була запропонована мною). Припустимо, Всесвіт із ста стихій. Я буду використовувати Top для позначення кластеризації одним кластером, що містить усі елементи, знизу для позначення кластеризації, де всі вузли знаходяться в окремих сингтонних множинах, зліва для позначення кластеризації {{1,2, .. 10}, {11, 12..20}, {21,22..30}, ..., {91,92, .. 100}} і право позначити кластеризацію {{1,11, .. 91}, {2, 12, .. 92}, {3,13, .. 93}, ..., {10,20, .. 100}}.
На мій погляд, знизу і верх є послідовними (гніздовими) кластерами, тоді як лівий і правий є максимально конфліктуючими кластерами. Відстані від згаданих показників для цих двох парних порівнянь такі:
Top-Bottom Left-Right
Mirkin 9900 1800
VI 4.605 4.605
Split/join 99 180
Звідси випливає, що Міркін / Ранд розглядають послідовну пару верхнього низу набагато далі, ніж максимально суперечлива пара ліво-право. Це надзвичайний приклад для ілюстрації суті, але Міркін / Ранд, як правило, сильно впливає на деталізацію кластерів, на яких він працює. Причиною, що лежить в основі цього, є квадратична залежність між цією величиною метрики та кластера, що пояснюється тим, що бере участь підрахунок пар вузлів. Насправді відстань Міркіна - це відстань Хеммінга між крайовими наборами об'єднань повних графіків, індукованих кластеризацією (я думаю, це відповідь на ваше запитання).
Що стосується відмінностей між варіацією інформації та розділенням / приєднанням, перший є більш чутливим до певних конфліктних ситуацій, як показала Мейла. Тобто, Split / Join розглядає лише найкращу відповідність для кожного кластеру і ігнорує фрагментацію, яка може виникнути на решті частини цього кластера, тоді як варіація інформації підбере це. Однак, Split / Join легко інтерпретується як кількість вузлів, які потрібно перемістити, щоб отримати один кластер з іншого , і в цьому сенсі його діапазон легше зрозуміти; на практиці питання фрагментації також може бути не таким поширеним.
Кожна з цих метрик може бути сформована як сума двох відстаней, а саме відстаней від кожного з двох кластерів до їх найбільшого загального підкластеру. Я вважаю, що часто вигідніше працювати з цими окремими частинами, а не просто з їх сумою. Потім наведена вище таблиця стає:
Top-Bottom Left-Right
Mirkin 0,9900 900,900
VI 0,4.605 2.303,2.303
Split/join 0,99 90,90
Співвідношення підзарядки між Топом і Низом стає негайно зрозумілим. Часто буває дуже корисно знати , є чи два кластеризації є послідовними (тобто один є (майже) а subclustering інших) в якості релаксації питання , чи є вони близькі . Кластеризація може бути досить далекою від золотого стандарту, але все ж бути послідовною або майже послідовною. У такому випадку може бути ніяких причин вважати кластеризацію поганою щодо цього золотого стандарту. Звичайно, тривіальні кластеризація Top і Bottom будуть узгоджуватися з будь-якими кластеризаціями, тому це потрібно враховувати.
Нарешті, я вважаю, що такі показники, як Міркін, Варіація інформації та Розділити / Приєднатись, є природним інструментом порівняння кластеризації. Для більшості застосувань методи, які намагаються включити статистичну незалежність і виправити випадковість, надмірно придумані і придумані, а не уточнюючі.
Другий приклад
Розглянемо наступні пари кластеризації:
C1 = {{1, 2, 3, 4, 5, 6, 7, 8}, {9, 10, 11, 12, 13, 14, 15, 16}} з C2 = {{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}, {11, 12, 13, 14, 15, 16}}
і
C3 = {{1, 2, 3, 4}, {5, 6, 7, 8, 9, 10}, {11, 12, 13, 14, 15, 16}} з {{1, 2, 3 , 4}, {5, 6, 7, 8, 9, 10, 11, 12}, {13, 14, 15, 16}}
Тут С2 може бути сформований із С1 шляхом переміщення вузлів 9 і 10, а С3 може бути сформований із С3 шляхом переміщення вузлів 11 і 12. Обидва зміни однакові ("переміщення двох вузлів"), за винятком того, що розміри задіяних кластерів різняться . Таблиця показників кластеризації для цих двох прикладів:
C1-C2 C3-C4
Mirkin 56 40
VI 0.594 0.520
Split/Join 4 4
Видно, що на Міркін / Ранд та Варіювання інформації впливають розміри кластерів (а Міркін більшою мірою; це буде більш виражено, коли розміри кластерів розходяться), тоді як відстань Спліт / Приєднання - не (її значення 4 оскільки він "переміщує" вузли від однієї кластеризації до іншої завжди через найбільшу загальну підкластеризацію). Це може бути бажаною ознакою залежно від обставин. Просту інтерпретацію Split / Join (кількість вузлів для переміщення) та її незалежність від розміру кластера варто пам’ятати. Між Міркіним та варіацією інформації, я думаю, що остання дуже краща.