Припущення кластерного аналізу

16

Вибачте за рудиментарне запитання, я новачок у цій формі аналізу і досі дуже обмежене розуміння принципів.

Мені було просто цікаво, чи багато параметричних припущень для багатоваріантних / одновимірних тестів застосовуються для кластерного аналізу? У багатьох джерелах інформації, яку я читав щодо кластерного аналізу, не вдається вказати жодних припущень.

Мене особливо цікавить припущення про незалежність спостережень. Я розумію, що порушення цього припущення (наприклад, у ANOVA та MAVOVA) є серйозним, оскільки воно впливає на оцінки помилок. З мого читання до цього часу, схоже, кластерний аналіз є значною мірою описовою технікою (що включає лише статистичний висновок у певних конкретних випадках). Відповідно, чи потрібні припущення, такі як незалежність та нормально розподілені дані?

Будемо дуже вдячні за будь-які рекомендації текстів, які обговорюють це питання. Велике дякую.

clustering assumptions

— Кайл Браун
джерело

7

Ну, методи кластеризації не обмежуються методами, заснованими на відстані, де ми шукаємо групи статистичних одиниць, незвично близьких один до одного, в геометричному сенсі. Існує також ряд методів, що спираються на щільність (кластери розглядаються як "регіони" в просторі функцій) або розподіл ймовірностей .

Останній випадок також відомий як кластеризація на основі моделі ; Психометрики використовують термін " Латентний аналіз профілю" для позначення цього конкретного випадку моделі Кінцевої суміші , де ми припускаємо, що сукупність складається з різних груп, що не спостерігаються, або латентних класів, і що щільність суглобів усіх проявних змінних є сумішшю цього класу, питома щільність. Хороша реалізація доступні в Mclust упаковці або Mplus програмного забезпечення. Можуть бути використані різні матриці коваріації, інваріантні класам (фактично, Mclust використовує критерій BIC для вибору оптимального, змінюючи кількість кластерів).

Стандартна модель латентного класу також припускає, що спостережувані дані походять від суміші g багатофакторних багаточленних розподілів. Хороший огляд доступний у модельному кластерному аналізі: a Defense , від Gilles Celeux.

Оскільки ці методи покладаються на припущення щодо розподілу, це також дозволяє використовувати формальні тести або показники придатності для визначення кількості кластерів або класів, що залишається складною проблемою при аналізі кластера на основі відстані, але дивіться наступні статті які обговорювали це питання:

Handl, J., Knowles, J., and Kell, DB (2005). Обчислювальна валідація кластера в постгеномному аналізі даних. Біоінформатика , 21 (15) , 3201-3212.
Hennig, C. (2007) Кластерна оцінка стабільності кластера. Обчислювальна статистика та аналіз даних , 52 , 258-271.
Hennig, C. (2008) Точка розчинення та стійкість ізоляції: критерії стійкості для загальних методів кластерного аналізу. Журнал багатоваріантного аналізу , 99 , 1154-1176.

— хл
джерело

3

Існує дуже широке розмаїття методів кластеризації, які є дослідницькою природою, і я не думаю, що жоден із них, будь то ієрархічний чи на основі розділів, покладається на ті припущення, з якими доводиться виконувати аналіз аналізу дисперсії.

Переглянувши документацію [MV] у штаті, щоб відповісти на ваше запитання, я знайшов цю кумедну цитату на сторінці 85:

Хоча деякі заявляють, що існує стільки методів кластерного аналізу, скільки людей, які виконують кластерний аналіз. Це грубе заниження! Існує нескінченно більше способів проведення кластерного аналізу, ніж людей, які їх виконують.

У цьому контексті я сумніваюся, що існують якісь припущення, що застосовуються через метод кластеризації. У решті тексту просто викладено загальне правило про те, що для створення кластерів вам потрібна певна форма "міри несхожості", яка навіть не повинна бути метричною дистанцією.

Однак є один виняток, який полягає в тому, що ви кластеруєте спостереження як частина аналізу після оцінки. У Stata vceкоманда надходить із таким попередженням на сторінці 86 того самого джерела:

Якщо вам відомий великий масив команд оцінки Stata, будьте обережні, щоб розрізняти кластерний аналіз (команда кластера) та варіант vce (кластерний clustvar), дозволений з багатьма командами оцінювання. Кластерний аналіз знаходить групи в даних. Параметр vce (кластер clustvar), дозволений за допомогою різних команд оцінки, вказує на те, що спостереження незалежні для груп, визначених параметром, але не обов'язково є незалежними в цих групах. Змінна групування, створена командою кластера, рідко задовольняє припущення щодо використання параметра vce (cluster clustvar).

Виходячи з цього, я вважаю, що незалежні спостереження не потрібні поза цим конкретним випадком. Інтуїтивно додам, що кластерний аналіз навіть може бути використаний для точної мети дослідження того, наскільки спостереження незалежні чи ні.

Я закінчу, зазначивши , що, на сторінці 356 з статистики з Stata , Лоуренс Гамільтон згадує стандартизований змінний як «істотний» аспект кластерного аналізу, хоча він і не вдаватися в більш детально з цього питання.

— О.
джерело

2

Просторовий кластерний аналіз використовує географічно посилання спостереження і є підмножиною кластерного аналізу, який не обмежується розвідувальним аналізом.

Приклад 1

Його можна використовувати для створення справедливих виборчих округів.

Приклад 2

Локальні просторові заходи автокореляції використовуються в методі кластеризації AMOEBA . Олдштадт та Гетіс використовують отримані кластери для створення матриці просторових ваг, яку можна вказати в просторових регресіях для перевірки гіпотези.

Див. Aldstadt, Jared та Arthur Getis (2006) "Використання AMOEBA для створення матриці просторових ваг та визначення просторових кластерів". Географічний аналіз 38 (4) 327-343

Приклад 3

Аналіз кластерів на основі випадково зростаючих регіонів із заданим набором критеріїв може бути використаний як імовірнісний метод для виявлення несправедливості в дизайні інституційних зон, таких як зони відвідування шкіл або виборчі округи.

— b_dev
джерело

1

Кластерний аналіз сам по собі не передбачає тестування гіпотез, а насправді є лише сукупністю різних алгоритмів подібності дослідницького аналізу. Можна дещо змусити тестування гіпотез, але результати часто непослідовні, оскільки зміни кластерів дуже чутливі до змін параметрів.

http://support.sas.com/documentation/cdl/en/statug/63033/HTML/default/viewer.htm#statug_introclus_sect010.htm

— Ральф Вінтерс
джерело