Про кофенетичну кореляцію кластеризації дендрограм


10

Розглянемо контекст кластеризації дендрограм. Назвемо оригінальні відмінності відстаней між особинами. Після побудови дендрограми ми визначаємо кофенетичну різницю між двома особинами як відстань між кластерами, до яких ці особи належать.

Деякі люди вважають, що кореляція між вихідними відмінностями та кофенетичними відмінностями (звана кофенетичною кореляцією ) є "показником придатності" класифікації. Це звучить для мене абсолютно спантелично. Моє заперечення не спирається на конкретний вибір кореляції Пірсона, а на загальну думку про те, що будь-який зв'язок між початковими несхожостями та кофенетичними відмінностями може бути пов'язаний із придатністю класифікації.

Чи погоджуєтесь ви зі мною, чи можете ви представити якийсь аргумент, що підтверджує використання кофенетичної кореляції як індексу придатності для класифікації дендрограм?


Ви не пояснюєте своє заперечення проти (досить інтуїтивно) general idea that any link between the original dissimilarities and the cophenetic dissimilarities could be related to the suitability of the classification. Класифікація повинна відображати оригінальні відмінності. Основна особливість дендрограмної класифікації - це через кофенетичну подібність. Чи є щось неправильно?
ttnphns

1
До речі, не слід поєднувати поняття ієрархічної (аглометативної) кластеризації з ієрархічною (дендрограмною) класифікацією . Кластеризація виробляє свою дендрограму як звіт про процес ; це не стверджує, що це результат ієрархічної класифікації .
ttnphns

1
Кофенетична кореляція була запропонована лише для "догматичних" класифікацій - там, де класифікація повинна відображати парні відмінності, звідси поняття корисності (кофенетичної) кореляції слід негайно.
ttnphns

2
Ви можете прочитати цю статтю про кофенетичну кореляцію
ttnphns

3
@ StéphaneLaurent Я нічого не можу зробити як відповідь на ваше запитання, але я читав діалог. Ніщо, що ви сказали, не здавалося для мене образливим. Також ви сказали, що не знаєте різниці між класифікацією та кластеризацією, і я не бачив відповіді на просте запитання. Це різниця між тим, що машинне навчання люди називають наглядовим та непідконтрольним навчанню. У класифікації ви знаєте всі мітки класів для своїх даних і використовуєте цю інформацію для побудови правила класифікації для майбутніх випадків, у яких немає міток. У кластері у вас немає маркування.
Майкл Р. Черник

Відповіді:


2

... - це "індекс придатності" класифікації

Мені не зовсім зрозуміло, що мається на увазі під цим. Те, як я це отримав, це те

співвідношення між первісною різницею та кофенетичними відмінностями (називається кофенетичною кореляцією)

- це міра ієрархічної структури серед спостережень , тобто їх відстаней. Тобто, несхожість спостережень у різних кластерах переважно однакова. Враховуючи набори даних A і B, згруповані з використанням евклідової відстані та повного зв'язку ... введіть тут опис зображення ... навіть не дивлячись на кофенетичну карту відстаней чи обчислюючи кофенетичний кореляційний зв’язок, можна побачити, що кофенетична кореляція A вища, ніж B В ієрархії є рівні. Тож ЦК розповідає про те, чи подібні відстані до спостережень на одному рівні (кластер).

Для повноти: Кофенетичні кореляції - CC (A) = 0,936 і CC (B) = 0,691


2
Я б хотів, щоб я був більш експертним щодо цього. Я не зовсім слідую за вашим прикладом щодо теплових карт. Що ви бачите, що це робить очевидним CC (A)> CC (B)? Наприклад, якби верхні трикутники були кофенетичними відстанями, а нижні трикутники були оригінальними відстанями, і обидва відображали подібні зразки, то я б визнав, що КК буде високим і т. Д. Вт / ці я не впевнений, як зробити такий висновок . Це просто, що A, природно, призведе до кращого кластеризації, і тому отриманий CC просто повинен буде закінчитись добре?
gung - Відновіть Моніку
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.