Порівняння ієрархічної кластеризації дендрограм, отриманих різними відстанями та методами


28

[Початкова назва "Вимірювання подібності для ієрархічних дерев кластеризації" згодом @ttnphns змінила, щоб краще відобразити тему]

Я виконую ряд ієрархічних кластерних аналізів у кадрі даних пацієнтів (наприклад, подібний до http://www.biomedcentral.com/1471-2105/5/126/figure/F1?highres=y )

Я експериментую з різними мірами відстані , різною вагою параметрів та різними ієрархічними методами , щоб зрозуміти їх вплив на кінцеві кластери / структуру / вигляд дерева (дендрограма). Моє запитання, чи існує стандартний розрахунок / міра, щоб обчислити різницю між різними ієрархічними деревами, і як це реалізувати в R (наприклад, кількісно визначити, що деякі дерева майже однакові, а деякі різко відрізняються)

Відповіді:


44

Для порівняння подібності двох ієрархічних (деревоподібних) структур використовуються заходи, засновані на ідеї кофенетичної кореляції. Але чи правильно проводити порівняння дендрограм, щоб вибрати «правильний» метод або міру відстані в ієрархічній кластеризації?

Є деякі моменти - приховані корчі - щодо ієрархічного кластерного аналізу, які я вважаю досить важливим :

  • Ніколи не порівнюйте (з метою вибору методу, що забезпечує більш сильне розділення) дендрограми, отримані різними методами агломерації візуально. Він не скаже, який метод "кращий" у цьому. Кожен метод має власний "прототиповий" вигляд дерева: дерева будуть постійно відрізнятися, навіть коли дані не мають структури кластера або мають випадкову структуру кластера. (Я не думаю, що існує стандартизація або міра, яка б усунула ці суттєві відмінності.) Однак ви можете порівняти зовнішні результати дендрограми результатів, отриманих за тим же методом, але за різними даними. Максим: пряме, зовнішнє порівняння дендрограм після різних методів неприпустимо .
  • Не визначайте кількість скупчень (тобто де вирубати дерево), дивлячись на дендрограму методу Уорда . У Варді дерево показує зростання сумарного, а не усередненого коефіцієнта збігання; і наслідком цього є те, що оскільки пізніші кластери збільшуються за кількістю очок, то пізніші кластери виглядають в омані «краще» на дереві. Щоб належним чином стандартизувати дендрограму Уорда, розділіть коефіцієнт приросту коефіцієнтів на кожному кроці на загальну кількість точок у двох кластерах, що поєднуються (таку стандартизовану дендрограму Уорда, хоча, графічно реалізувати важко). 1 Максим: вибір рівня зрізу шляхом розгляду зовнішності дендрограми, хоча це можливо, не найкращий метод вибору розділу, а для деяких методів може ввести в оману . Натомість рекомендується покладатися на якийсь офіційний критерій внутрішнього кластеризації .
  • Хоча ніхто не може заборонити вам «експериментувати» з дистанційними заходами або агломераційними методами, краще вибирати відстань і метод свідомо , не сліпо намагаючись. Відстань має відображати аспекти різниці, які вас цікавлять, а метод - що потрібно знати, передбачає специфічний архетип кластеру (наприклад, метафора кластера Ward - це, я б сказав, тип ; кластер після повного зв'язку бути коло [за хобі чи за сюжетом]; кластер після одного зв’язку був би спектром [ланцюгом]; кластер після центроїдного методу був би близькістю платформ [політика]; середній кластер зв'язків концептуально найбільш недиференційований і був би загалом об'єднаним класом ).
  • Деякі методи вимагають прийняття правильних відстаней та / або правильного типу даних. Наприклад, Уорд і центроїд логічно вимагають (квадрату) евклідової відстані - тому що ці методи включають обчислення центроїдів в евклідовому просторі. А обчислення геометричних центроїдів не сумісне, наприклад, з бінарними даними; дані повинні бути масштабними / безперервними. Максим: припущення та відповідність даних / відстані / методу є дуже важливим і не таким простим питанням.
  • Попередня обробка (наприклад, центрування, масштабування та інші форми трансформації змінних / ознак) до обчислення матриці відстані та проведення кластеризації також є надзвичайно важливим питанням. Це може різко вплинути на результати. Поміркуйте, яка попередня обробка може вам допомогти і матиме сенс з точки зору тлумачення. Крім того, ніколи не соромтесь уважно перевіряти ваші дані, перш ніж намагатися зробити кластерний аналіз.
  • Не всі методи агломеративної кластеризації можна розглядати як ієрархічну класифікацію ... на філософських засадах. Наприклад, метод центроїдів do дає певну ієрархію, тому що центр кластерів - це невід'ємна та визначальна особливість кластеру в цілому , і об'єднання кластерів керується цією функцією. З іншого боку, повна зв'язок "відхиляє" обидва субкластери, коли їх об'єднує - в силу дистанції між окремими об'єктами двох. Таким чином, повна дендрограма зв’язку - це лише історія колекціонування, а не своєрідна систематика батьків-дитини .Максим: Ієрархічний агломераційний аналіз кластерів, як правило, очікує, що ви зробите розділ на основі його результату, а не бачите результат як ієрархічну систематику.
  • Ієрархічна кластеризація - це типовий жадібний алгоритм, який робить найкращий вибір серед альтернатив, що з’являються на кожному кроці з надією наблизитися до оптимального рішення врешті-решт. Однак "кращий" вибір, що з'являється на високому кроці, ймовірно, буде біднішим, ніж теоретично можливий глобальний оптимум на цьому кроці. Чим більше крок, тим більшою є субоптимальність, як правило. Зважаючи на те, що ми, як правило, хочемо мати декілька кластерів, важливі останні кроки; і, як тільки що було сказано, очікується, що вони будуть відносно бідними, якщо кількість кроків буде великим (скажімо, тисячним кроком). Ось чому ієрархічне кластеризація, як правило, не рекомендується для великих зразків об'єктів (що налічують тисячі об'єктів), навіть якщо програма могла обробляти таку матрицю великих відстаней.

Якщо після вищезазначених заходів обережності ви продовжуєте вважати, що ви хочете міри подібності між ієрархічними класифікаціями, ви можете google про "порівняння дендрограм" та "порівняння ієрархічних класифікацій". Один з найбільш припускаючи себе ідея може бути засновані на cophenetic кореляції: наявність двох дендрограмм для того ж набір даних з п об'єктів, нехай буде коефіцієнт colligation (або , можливо , його ранг, номер кроку) між кожною парою об'єктів Ij в одна дендрограма, а так само буде однаковою в іншій дендрограмі. Обчисліть кореляцію чи косинус.XijYij


1 Пізніше оновлення з проблеми дендрограмми з Wards методу «и. Різні програми кластеризації можуть виводити по-різному перетворені коефіцієнти агломерації для методу Уорда. Отже, їх дендрограми будуть виглядати дещо інакше, незважаючи на те, що історія кластеризації та результати їх однакові . Наприклад, SPSS не бере корінь з ультраметричних коефіцієнтів, і він накопичує їх у висновку. Інша традиція (наприклад, у деяких пакетах R) - це взяти корінь (так званий "Ward-2"реалізацій) і не накопичуватися. Повторюся, такі відмінності впливають лише на загальну форму / вигляд дендрограми, а не на результати кластеризації. Але зовнішній вигляд дендрограми може вплинути на ваше рішення щодо кількості кластерів. Мораль полягає в тому, що було б безпечно взагалі не покладатися на дендрограму у методі Уорда, якщо ви точно не знаєте, які ці коефіцієнти є поза вашою програмою, і як їх правильно інтерпретувати.


5
Я можу вдруге сказати все це. Два моменти, які я хочу додати: А) те, що ви, здається, робите, - це якийсь наряд . Систематично оцінюючи заходи, ваги та методи, існує високий ризик того, що параметри, з якими ви закінчуєтесь, є дуже специфічними для ваших поточних даних і можуть бути марними для інших даних або навіть пізніших даних. Б) яка корисна інформація про схожість дендрограм. Поміркуйте, що ви хочете зробити з ними згодом, а потім спробуйте оцінити в кінцевому результаті. Оцінка проміжних результатів може ввести в оману.
Аноні-Мус

1
Якщо ви все ще зацікавлені в цій темі, я думав , що ви могли б знайти свій недавній відповідь на DS SE корисного, особливо , як це пропонує покриття, хоча і обмежені, як частотні і байєсовські підходи до ієрархічним актуальним моделям (з вбудованою інформацією про класі) та вибір заходів подібності .
Олександр Блех

@ttnphns, Чи можете ви поясніть, будь ласка, більш детально, як використовувати "коефіцієнт збірності" для порівняння двох ієрархічних класифікацій?
bassir
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.