Вибір правильного методу зв'язку для ієрархічної кластеризації

Я здійснюю ієрархічну кластеризацію даних, які я зібрав і обробив з дампу даних Reddit в Google BigQuery.

Мій процес такий:

Отримайте останні 1000 публікацій в / r / polit
Зберіть всі коментарі
Обробляти дані та обчислювати n x mматрицю даних (n: користувачі / зразки, m: повідомлення / функції)
Обчисліть матрицю відстані для ієрархічної кластеризації
Виберіть метод зв’язку та виконайте ієрархічну кластеризацію
Накресліть дані у вигляді дендрограми

Моє запитання полягає в тому, як я можу визначити, який найкращий метод зв'язку ? Я в даний час використовую , Wardале , як я знаю , якщо я повинен використовувати single, complete, averageі т.д.?

Я дуже новачок у цьому матеріалі, але не можу знайти чіткої відповіді в Інтернеті, оскільки не впевнений, що існує. То що може бути хорошою ідеєю для моєї заявки? Зауважте, дані відносно рідкісні, тому що n x mматриця має багато нулів (більшість людей не коментують більше кількох публікацій).

— Кевін Егер
джерело

Якщо відмовитись від конкретної проблеми зв’язку, що б "найкраще" означало у вашому контексті?

— gung - Відновіть Моніку

Найкраще для мене - це знайти найбільш логічний спосіб зв’язати мій тип даних. тобто: який підхід точно визначає, що мається на увазі під «дистанцією» в межах моїх особливостей.

— Кевін Егер

Кевін, погляньте на цю відповідь і на це зовсім недавнє запитання . Ви дізнаєтесь, що питання ("який метод використовувати"), яке ви ставите, не з легких. Ви обов'язково повинні прочитати літературу про кластеризацію (принаймні ієрархічну), перш ніж ви зможете побачити різницю між методами та мати можливість вибору. Аналіз даних не слід обробляти недобросовісно.

— ttnphns

@ttnphns, спасибі за посилання - було добре прочитано, і я буду брати до уваги ці моменти.

— Кевін Егер

Огляд методів

Коротка довідка про деякі методи зв’язку ієрархічного агломераційного кластерного аналізу (HAC).

Базова версія алгоритму HAC - це одна загальна; це означає оновлення на кожному кроці за формулою, відомою як формула Ленса-Вільямса, близькість між виникаючим (злився з двома) кластером та всіма іншими кластерами (включаючи одиночні об'єкти), існуючими до цих пір. Існують реалізації, що не використовують формулу Lance-Williams. Але використовувати це зручно: він дозволяє одному коду різних методів зв’язку за одним і тим же шаблоном.

Формула рецидиву включає кілька параметрів (альфа, бета, гама). Залежно від методу зв'язку, параметри встановлюються по-різному, і тому розгорнута формула отримує конкретний вигляд. У багатьох текстах HAC показана формула, її конкретні погляди та пояснені методи. Я б рекомендував статті Яноша Подані як дуже ретельні.

Вміст і потреба в різних методах випливають з того, що близькість (відстань або схожість) між двома кластерами або між кластером і однотонним об'єктом може бути сформульована різними способами. HAC об'єднує на кожному кроці два найбільш близьких кластери або точки, але як обчислити вищезазначену близькість в обличчі, що матриця близькості вхідної лінії визначалася лише між однотонними об'єктами, є проблемою для формулювання.

Отже, методи відрізняються щодо того, як вони визначають близькість між будь-якими двома кластерами на кожному кроці. "Коефіцієнт збірності" (вихід у графіку / історії агломерації та формування осі "Y" на дендрограмі) - це лише близькість між двома кластерами, об'єднаними на даному кроці.

Метод єдиного зв'язку або найближчого сусіда . Близькість між двома кластерами - це близькість між двома їх найближчими об'єктами. Це значення є одним із значень вхідної матриці. Концептуальна метафора цього побудована з кластера, його архетип, є спектр або ланцюг . Ланцюги можуть бути прямими або криволінійними, або бути схожими на вигляд "сніжинки" або "амеби". Два найрізноманітніші члени кластера можуть бути дуже різними порівняно з двома найбільш схожими. Метод одинарного зв’язку контролює подібність лише найближчих сусідів.
Метод повного зв'язку або найдальшого сусіда . Близькість між двома кластерами - це близькість між двома їх найвіддаленішими об’єктами. Це значення є одним із значень вхідної матриці. Метафора цього побудованого кластера - це коло (у сенсі за хобі чи сюжетом), де два найвіддаленіших один від одного члени не можуть бути набагато більш подібними, ніж інші досить несхожі пари (як у колі). Такі скупчення є «компактними» контурами за своїми межами, але вони не обов'язково є компактними всередині.
Метод міжгрупового середнього зв’язку (UPGMA). Близькість між двома кластерами - це середнє арифметичне всіх близькостей між об'єктами однієї, з однієї сторони, і предметами з іншого, з іншого боку. Метафора цього побудованого кластера є досить загальним, просто об'єднаним класом чи згуртованим колективом; і метод часто встановлюється за замовчуванням в ієрархічних пакетах кластеризації. Можуть бути створені кластери різних форм та контурів.
Просте середнє , або метод рівноважної середньої групи між групами (WPGMA) - це модифікований попередній. Близькість між двома кластерами - це середнє арифметичне всіх близькостей між об'єктами однієї, з однієї сторони, і предметами з іншого, з іншого боку; в той час як підкластери, з якими кожен з цих двох кластерів злився останнім часом, вирівнювали вплив на цю близькість - навіть якщо підкластери відрізнялися за кількістю об'єктів.
Метод середньогрупового зв’язку (MNDIS). Близькість між двома кластерами - це середнє арифметичне всіх близькостей їх спільного скупчення. Цей метод є альтернативою UPGMA. Зазвичай він втрачає його з точки зору щільності кластера, але іноді виявить форми кластерів, яких UPGMA не буде.
Центроїдний метод (UPGMC). Близькість між двома кластерами - це близькість між їх геометричними центроїдами: [квадрат] евклідової відстані між ними. Метафора цього побудованого кластера - близькість платформ (політика). Як і в політичних партіях, такі кластери можуть мати фракції або "фракції", але, якщо їх центральні фігури не є одна від одної, союз є послідовним. Кластери можуть бути різними за обрисами.
Середній або рівноважний центроїдний метод (WPGMC) - це модифікований попередній. Близькість між двома кластерами - це близькість між їх геометричними центроїдами ([квадратом] евклідова відстань між ними); в той час як центроїди визначені так, що субкластери, з яких кожен з цих двох кластерів злився останнім часом, зрівняли вплив на його центроїд - навіть якщо субкластери відрізнялися за кількістю об'єктів.
Метод Уорда або мінімальне збільшення суми квадратів (MISSQ), іноді неправильно називається методом "мінімальної дисперсії". Близькість між двома кластерами - це величина, на яку підсумований квадрат у їх спільному кластері буде більшим, ніж об'єднаний підсумований квадрат у цих двох кластерах: $SS_{12}-(SS_1+SS_2)$ . (Між двома однотонними об'єктами ця кількість = квадратна евклідова відстань / $2$ .) Метафора цього побудованого кластера - тип . Інтуїтивно зрозумілий тип - це хмара, більш щільна і концентрична до середини, тоді як граничні точки мало і можуть розсіятися відносно вільно.

Деякі з менш відомих методів (див. Подані Дж. Нові методи комбінаторної кластеризації // Vegetatio, 1989, 81: 61-77.) [Також реалізовані мною як макрос SPSS, знайдений на моїй веб-сторінці]:

Метод мінімальної суми квадратів (MNSSQ). Близькість між двома кластерами - це підсумований квадрат у їх спільному кластері: $SS_{12}$ . (Між двома однотонними об'єктами ця кількість = квадратна евклідова відстань / $2$ .)
Method of minimal increase of variance (MIVAR). Proximity between two clusters is the magnitude by which the mean square in their joint cluster will be greater than the weightedly (by the number of objects) averaged mean square in these two clusters: $MS_{12}-(n_1MS_1+n_2MS_2)/(n_1+n_2) = [SS_{12}-(SS_1+SS_2)]/(n_1+n_2)$ . (Between two singleton objects this quantity = squared euclidean distance / $4$ .)
Method of minimal variance (MNVAR). Proximity between two clusters is the mean square in their joint cluster: $MS_{12} = SS_{12}/(n_1+n_2)$ . (Між двома однотонними об'єктами ця кількість = квадратна евклідова відстань / $4$ .).

Перші 5 методів дозволяють проводити будь-які заходи наближення (будь-які подібності чи відстані), а результати, природно, залежатимуть від обраного заходу.

Останні 6 методів вимагають відстані; і цілком коректним буде використання лише евклідових відстаней у квадраті , оскільки ці методи обчислюють центроїди в евклідовому просторі. Тому відстані повинні бути евклідовими заради геометричної коректності (ці 6 методів називаються разом методами геометричних зв'язків). У гіршому випадку ви можете ввести інших показникивідстані при визнанні більш евристичного, менш жорсткого аналізу. Тепер про той "квадрат". Обчислення центроїдів та відхилень від них найзручніше математично / програмно виконувати на квадратичних відстанях, тому пакети HAC зазвичай потребують введення та налаштовуються на обробку квадратних. Однак існують реалізації - цілком еквівалентні, але трохи повільніші - засновані на введенні неквадратичних відстаней і вимагають їх; див., наприклад, реалізацію "Ward-2" для методу Уорда. Ви повинні проконсультуватися з документацією вашої програми кластеризації, щоб знати, які - квадратичні чи ні - відстані, які він очікує при введенні до "геометричного методу", щоб зробити це правильно.

Методи MNDIS, MNSSQ і MNVAR вимагають кроків, окрім лише оновлення формули Ланс-Вільямса, для зберігання статистики всередині кластера (що залежить від методу).

Методи, які найчастіше використовуються в дослідженнях, де очікується, що кластери будуть твердими більш-менш круглими хмарами, - це методи середньої зв'язку, метод повного зв'язку та метод Варда.

Ward's method is the closest, by it properties and efficiency, to K-means clustering; they share the same objective function - minimization of the pooled within-cluster SS "in the end". Of course, K-means (being iterative and if provided with decent initial centroids) is usually a better minimizer of it than Ward. However, Ward seems to me a bit more accurate than K-means in uncovering clusters of uneven physical sizes (variances) or clusters thrown about space very irregularly. MIVAR method is weird to me, I can't imagine when it could be recommended, it doesn't produce dense enough clusters.

Methods centroid, median, minimal increase of variance – may give sometimes the so-called reversals: a phenomenon when the two clusters being merged at some step appear closer to each other than pairs of clusters merged earlier. That is because these methods do not belong to the so called ultrametric. This situation is inconvenient but is theoretically OK.

Методи одинарного зв’язку і центроїд належать до так званого космічного контрактування , або «ланцюгового». Це означає - грубо кажучи - що вони, як правило, приєднують об'єкти по черзі до кластерів, і тому вони демонструють відносно плавне зростання кривої "% кластеризованих об'єктів". Навпаки, методи повного зв'язку, Уорда, суми квадратів, збільшення дисперсії та дисперсії зазвичай отримують значну частку об'єктів, згрупованих навіть на ранніх кроках, а потім переходять до об'єднання ще тих, - отже їх крива «% кластеризованих об’єктів ”Круто від перших кроків. Ці методи називають просторовим розширенням . Інші методи перебувають між ними.

Гнучкі версії . Додавши додатковий параметр у формулу Ланс-Вілліанса, можна зробити метод набути спеціальної самонастройки на його кроках. Параметр вносить виправлення для обчислюваної близькості між кластером, що залежить від розміру (величини декомплектності) кластерів. Сенс параметра полягає в тому, що він робить метод агломерації більш розширеним простором або скороченням простору, ніж приречений стандартний метод. Найвідоміша реалізація гнучкості до цих пір - це методи середнього зв’язку UPGMA та WPGMA (Belbin, L. et al. Порівняння двох підходів до бета-гнучкої кластеризації // Багатовимірне поведінкове дослідження, 1992, 27, 417–433. ).

Дендрограма. На осі дендрограми "Y" типово відображається близькість між об'єднувальними кластерами - як визначено вище методами. Тому, наприклад, у центроїдному методі квадратна відстань зазвичай вимірюється (зрештою, це залежить від пакету та варіантів) - деякі дослідження цього не знають. Також, за традицією, методи, засновані на прирості нежитю, такі як Уорд, зазвичай показані на дендрограмі, мають кумулятивне значення - це швидше з міркувань зручності, ніж теоретичні. Таким чином, (у багатьох пакетах) графічний коефіцієнт у методі Уорда являє собою загальну для всіх кластерів суму в межах кластера, яка спостерігається в момент даного кроку.

Слід утримуватися від судження про те, який метод зв’язку "кращий" для його даних, порівнюючи зовнішній вигляд дендрограм: не тільки тому, що зовнішній вигляд змінюється, коли ви змінюєте модифікацію коефіцієнта, який ви там накреслюєте - як це було щойно описано, - а тому, що зовнішній вигляд відрізнятиметься навіть від даних без кластерів.

Вибрати «правильний» метод

Єдиного критерію немає . Деякі вказівки щодо вибору методу кластерного аналізу (включаючи метод зв’язку в HAC як конкретний випадок) викладені у цій відповіді та цілій темі в ній.

— ttnphns
джерело

The correlation between the distance matrix and the cophenetic distance is one metric to help assess which clustering linkage to select. From ?cophenetic:

It can be argued that a dendrogram is an appropriate summary of some data if the correlation between the original distances and the cophenetic distances is high.

This use of cor(dist,cophenetic(hclust(dist))) as a linkage selection metric is referenced in pg 38 of this vegan vignette.

See example code below:

# Data
d0=dist(USArrests)

# Hierarchical Agglomerative Clustering
h1=hclust(d0,method='average')
h2=hclust(d0,method='complete')
h3=hclust(d0,method='ward.D')
h4=hclust(d0,method='single')

# Cophenetic Distances, for each linkage
c1=cophenetic(h1)
c2=cophenetic(h2)
c3=cophenetic(h3)
c4=cophenetic(h4)

# Correlations
cor(d0,c1) # 0.7658983
cor(d0,c2) # 0.7636926
cor(d0,c3) # 0.7553367
cor(d0,c4) # 0.5702505

# Dendograms
par(mfrow=c(2,2))
plot(h1,main='Average Linkage')
plot(h2,main='Complete Linkage')
plot(h3,main='Ward Linkage')
plot(h4,main='Single Linkage')
par(mfrow=c(1,1))

Ми бачимо, що кореляції для averageі completeнадзвичайно схожі, а їх дендограми виглядають дуже схожими. Кореляції wardаналогічна averageі , completeале dendogram виглядає досить різні. singleзв’язок робить свою справу. Найкраще професійне судження експерта з питань тематики або перевагу перед певним зв'язком у сфері інтересів, мабуть, має перевищити числовий вихід із cor().

— какаро
джерело