Для нестатистів, як я, дуже важко зафіксувати ідею VI
метрики (варіації інформації) навіть після прочитання відповідної статті Марини Меліа " Порівняння кластеризації - відстань на основі інформації " (Journal of Multivariate Analysis, 2007). Насправді я не знайомий з багатьма умовами кластеризації там.
Нижче наведено MWE, і я хотів би знати, що означає вихід у різних використовуваних показниках. У мене є два кластери в R і в тому ж порядку id:
> dput(a)
structure(c(4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 3L, 3L,
4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L,
1L, 1L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 2L, 2L,
4L, 3L, 3L, 2L, 2L, 2L, 4L, 3L, 4L, 4L, 3L, 1L, 4L, 3L, 4L, 4L,
4L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 2L, 4L, 3L, 4L, 4L, 4L, 4L, 4L,
4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L,
4L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 4L
), .Label = c("1", "2", "3", "4"), class = "factor")
> dput(b)
structure(c(4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 3L, 3L,
4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L,
1L, 1L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 2L, 2L,
4L, 3L, 3L, 2L, 2L, 2L, 4L, 3L, 4L, 4L, 3L, 1L, 4L, 3L, 4L, 4L,
3L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 2L, 4L, 3L, 3L, 4L, 4L, 4L, 4L,
4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L,
4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 4L
), .Label = c("1", "2", "3", "4"), class = "factor")
Зараз робимо порівняння на основі VI
а також інших показників / покажчиків та в хронологічному порядку їх появи в літературі.
library(igraph)
# Normalized Mutual Information (NMI) measure 2005:
compare(a, b, method = c("nmi"))
[1] 0.8673525
# Variation of Information (VI) metric 2003:
compare(a, b, method = c("vi"))
[1] 0.2451685
# Jaccard Index 2002:
clusteval::cluster_similarity(a, b, similarity = c("jaccard"), method = "independence")
[1] 0.8800522
# van Dongen S metric 2000:
compare(a, b, method = c("split.join"))
[1] 8
# Adjusted Rand Index 1985:
compare(a, b, method = c("adjusted.rand"))
[1] 0.8750403
# Rand Index 1971:
compare(a, b, method = c("rand"))
[1] 0.9374788
Як бачимо, VI
значення відрізнялося від усіх інших.
- Що означає це значення (і як воно пов'язане з малюнком нижче)?
- Які вказівки вважають це значення низьким чи високим?
- Чи визначені якісь вказівки?
Можливо, фахівці в цій галузі можуть надати деякі розумні описи для мирян, як я, намагаючись повідомити про такі результати. Я дуже вдячний, якщо хтось також надасть рекомендації щодо інших показників (коли вважати, що значення велике чи мало, тобто стосовно подібності двох кластерів).
Я читав пов'язані теми CV тут і тут , але все ще не зміг зрозуміти інтуїцію позаду VI
. Чи може хтось пояснити це простою англійською?
Нижній малюнок - це фігура 2 з вищезгаданого документу о VI
.