Яка інтуїція лежить в основі варіації метрики інформації (VI) для перевірки кластеру?


11

Для нестатистів, як я, дуже важко зафіксувати ідею VIметрики (варіації інформації) навіть після прочитання відповідної статті Марини Меліа " Порівняння кластеризації - відстань на основі інформації " (Journal of Multivariate Analysis, 2007). Насправді я не знайомий з багатьма умовами кластеризації там.

Нижче наведено MWE, і я хотів би знати, що означає вихід у різних використовуваних показниках. У мене є два кластери в R і в тому ж порядку id:

> dput(a)
structure(c(4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 3L, 3L, 
4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 
1L, 1L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 2L, 2L, 
4L, 3L, 3L, 2L, 2L, 2L, 4L, 3L, 4L, 4L, 3L, 1L, 4L, 3L, 4L, 4L, 
4L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 2L, 4L, 3L, 4L, 4L, 4L, 4L, 4L, 
4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 
4L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 4L
), .Label = c("1", "2", "3", "4"), class = "factor")
> dput(b)
structure(c(4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 3L, 3L, 
4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 
1L, 1L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 2L, 2L, 
4L, 3L, 3L, 2L, 2L, 2L, 4L, 3L, 4L, 4L, 3L, 1L, 4L, 3L, 4L, 4L, 
3L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 2L, 4L, 3L, 3L, 4L, 4L, 4L, 4L, 
4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 
4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 4L
), .Label = c("1", "2", "3", "4"), class = "factor")

Зараз робимо порівняння на основі VIа також інших показників / покажчиків та в хронологічному порядку їх появи в літературі.

library(igraph)
  # Normalized Mutual Information (NMI) measure 2005:
compare(a, b, method = c("nmi")) 
[1] 0.8673525
  # Variation of Information (VI) metric 2003:
compare(a, b, method = c("vi")) 
[1] 0.2451685
  # Jaccard Index 2002:
clusteval::cluster_similarity(a, b, similarity = c("jaccard"), method = "independence") 
[1] 0.8800522
  # van Dongen S metric 2000:
compare(a, b, method = c("split.join")) 
[1] 8
  # Adjusted Rand Index 1985:
compare(a, b, method = c("adjusted.rand")) 
[1] 0.8750403
  # Rand Index 1971:
compare(a, b, method = c("rand")) 
[1] 0.9374788

Як бачимо, VIзначення відрізнялося від усіх інших.

  • Що означає це значення (і як воно пов'язане з малюнком нижче)?
  • Які вказівки вважають це значення низьким чи високим?
  • Чи визначені якісь вказівки?

Можливо, фахівці в цій галузі можуть надати деякі розумні описи для мирян, як я, намагаючись повідомити про такі результати. Я дуже вдячний, якщо хтось також надасть рекомендації щодо інших показників (коли вважати, що значення велике чи мало, тобто стосовно подібності двох кластерів).

Я читав пов'язані теми CV тут і тут , але все ще не зміг зрозуміти інтуїцію позаду VI. Чи може хтось пояснити це простою англійською?

Нижній малюнок - це фігура 2 з вищезгаданого документу о VI.

введіть тут опис зображення


2
Усі ці подібності та метрики (зауважте, різниця між двома типами) так чи інакше вимірюють кількість фрагментації, пов'язану з найбільшою загальною підкластерністю між двома розділами. Всі вони використовують те, що відомо як матриця плутанини. Розглядаючи точну формулу VI, можна зрозуміти, що вимірює цю фрагментацію. Я б запропонував переглянути формулу в одній з публікацій Meila, а також почитати про нормалізовані версії всіх цих відстаней, оскільки всі вони мають різні масштаби. Це може бути найважливішим моментом.
мікан

Я також боровся з тлумаченням VI і вважав цю статтю дуже корисною!
Піца

Відповіді:


1

Вам потрібно усвідомити, що заходи можуть мати різну інтерпретацію.

Судячи з вашого сюжету, низький VI - це добре.

1 - 0.2451685 = 0.7548315

що набагато більше відповідає іншим заходам.

Однак зауважте, що більшість із цих заходів вимірюють щось інше .

Немає підстав вважати, що лише тому, що один захід становить 0,8, інший також повинен бути 0,8


Я думаю, що ОП оцінив би це, якби ви могли пояснити, чим відрізняється річ кожного з них.
gung - Відновіть Моніку

Я не знаю їх досить добре, щоб пояснити кожного з них. Просто зрозуміло, що не мають порівнянних масштабів / одиниць. Так само, як Вольт і ноги, не порівнянні.
Мав QUIT - Anonymous-Mousse
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.