Який алгоритм реалізує clover.D в hclust (), якщо він не є критерієм Уорда?


16

Той, який використовується опцією "garde.D" (еквівалентний єдиному варіанту "Ward" у версіях R <= 3.0.3), не реалізує критерій кластеризації Уорда (1963 р.), Тоді як варіант "garde.D2" реалізує цей критерій ( Мурта і Легенда 2014).

( http://stat.ethz.ch/R-manual/R-patched/library/stats/html/hclust.html )

Судячи з усього, garde.D не належним чином виконує критерій Уорда. Тим не менш, це, здається, робить гарну роботу щодо кластеризації, яку він виробляє. Що реалізує метод = "guard.D", якщо він не є критерієм Уорда?

Список літератури

Murtagh, F., & Legendre, P. (2014). Ієрархічний метод агломераційного кластеризації Уорда: які алгоритми реалізують критерій Варда ?. Журнал класифікації , 31 (3), 274-295.


Чи говорять про це статті Мурта і Ленджера?
cbeleites підтримує Моніку

Я не маю доступу до цього документу
Раффаель,

Перше, що з’являється для мене пошук - це pdf рукопису у монреалі!
cbeleites підтримує Моніку

так що говорить папір? Я не можу його знайти
Раффаель,

Це я прошу вас сказати нам.
cbeleites підтримує Моніку

Відповіді:


11

Відповідний рукопис тут .

Різниця між garde.D і garde.D2 - це різниця між двома критеріями кластеризації, які в рукописі називаються Ward1 і Ward2.

Це в основному зводиться до того, що алгоритм Ward безпосередньо коректно реалізований лише в Ward2 (garde.D2), але Ward1 (garde.D) також може бути використаний, якщо евклідові відстані (від dist()) будуть розміщені в квадраті, перш ніж вводити їх до входу hclust()використовуючи палату.D як метод.

Наприклад, SPSS також реалізує Ward1, але попереджає користувачів про те, що відстані повинні бути розміщені в квадраті, щоб отримати критерій Ward. У такому сенсі реалізація garde.D не застаріла, і тим не менш, це може бути хорошою ідеєю зберегти її для зворотної сумісності.      


2
З статті, на яку ви посилаєтесь, випливає не Ward algorithm is directly correctly implemented in just Ward2, а скоріше, що: (1) для отримання правильних результатів з обома реалізаціями, використовуйте квадратні евклідові відстані з Ward1 та неквадративні евклідові відстані з Ward2; (2) для подальшого порівняння своїх дендрограм вивідних даних (ідентичних), перед побудовою дендрограми застосуйте квадратний корінь до рівня плавлення після Ward1 або квадратного рівня злиття після Ward2.
ttnphns

Ви праві, звичайно. Дякуємо за роз’яснення. Що я мав на увазі під «правильно виконаним правилом», це те, що ніякі подальші кроки, такі як взяття квадратного кореня висот, не потрібні, щоб досягти правильного результату методом garde.D2.
JTT

1
Крихітний нюанс тут полягає в тому, що за методом Уорда не визначено, що є "правильним" чи справжнім поданням рівнів синтезу - чи слід їх розміщувати "неквадратично" чи "квадратично". Причина нерішучості полягає в тому, що рівні плавлення в Уорді не відстані , вони поступові дисперсії.
ttnphns

9

Єдина відмінність ward.D& ward.D2- це вхідний параметр.

hclust(dist(x)^2,method="ward.D") ~ hclust(dist(x)^2,method="ward")

які еквівалентні: hclust(dist(x),method="ward.D2")

Ви можете знайти папір для повторної роботи: Ієрархічний метод кластеризації Уорда: Критерій кластеризації та агломераційний алгоритм

Значення критерію Ward2 знаходяться " на шкалі відстаней ", тоді як значення критерію Ward1 " на шкалі відстаней у квадраті ".


Я вважаю за краще, що ця відповідь означає, що інша вказує на те, що dome.D помиляється, це не так. Просто різні.
Кріс

6

Я натрапив на дослідницький документ, який відповідає цільовій функції, оптимізованій "Ward1 (garde.D)": Ієрархічна кластеризація за допомогою спільних між-в межах відстаней: Розширення методу мінімальної варіації Уорда . Виявляється, реалізація R "Ward1 (garde.D)" еквівалентна мінімізації енергетичної відстані між кластерними групами.

e

A={a1,,an1}B={b1,,bn2}Rdee(A,B)AB

e(A,B)=n1n2n1+n2(2n1n2i=1n1j=1n2aibj(1)1n12i=1n1j=1n1aiaj1n22i=1n2j=1n2bibj).

e(2)ward.D2e(1) відповідає до ward.D1. Насправді на сторінці 161–162 зазначено, що для0<α<2, е(α)ніяк НЕ відповідає який - або силі евклидова відстані, припускаючи , що розмір кластера більше1. Цікавий папір тим більше.
Jonas Dahlbæk
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.