Чи означають низькі ширини силуету, що дані мають малу основу структури?


10

Я новачок у послідовності аналізу, і мені було цікаво, як ви реагуєте, якщо середні ширини силуету (ASW) від кластерного аналізу матриць невідповідності на основі оптимального відповідності низькі (близько 25). Чи здається доречним зробити висновок про те, що існує мала основна структура, яка б дозволяла кластеризувати послідовності? Чи можете ви ігнорувати низький рівень ASW на основі інших заходів якості кластера (я вклав деякі нижче)? Або ймовірно, що вибір, зроблений під час аналізу послідовностей або наступних кластерних аналізів, може бути відповідальним за низькі числа ASW?

Будь-які пропозиції будуть вдячні. Дякую.

У випадку, якщо потрібно більше контексту:

Я вивчаю 624 послідовності невідповідностей робочих годин (тобто невідповідності між кількістю годин, які людина вважає за краще працювати за тиждень, і кількістю годин, які вони фактично працюють) серед людей 20 років. Усі послідовності, які я досліджую, мають тривалість 10. Мій об’єкт послідовності має п'ять станів (M = хоче більше годин, S = хоче однакових годин, F = хоче менше годин, O = поза робочою силою, а U = безробітний ).

Я не робив систематичного обліку того, як результати ASW змінюються залежно від різних комбінацій підходів. Тим не менш, я спробував низькі та середні витрати на інделі (.1 і .6 максимальної вартості заміни - я більше дбаю про порядок подій, ніж їх терміни) та різні процедури кластеризації (палата, середня кількість та пам.). Моє загальне враження, що кількість ASW залишається низькою.

Можливо, низькі результати ASW мають сенс. Я б очікував, що ці держави будуть надходити в різних порядках, і держави можуть повторюватися. Видалення дублюючих спостережень лише знижує N з 624 до 536. Вивчення даних виявляє, що дійсно є багато розмаїття та послідовностей, які я вважав би дуже різними, наприклад, люди, які весь час хотіли однакових годин, розробили невідповідність, вирішили невідповідність і коливається вперед і назад між наявністю і відсутністю невідповідності. Можливо, відсутність чітко диференційованих кластерів - це не те саме, що відсутність цікавих варіацій. Однак слабкі результати кластеру, здається, залишають мене без приємного способу узагальнення послідовностей.

Результати методу Уорда з інделем, встановленим на рівні .1 від вартості заміни 2 Ця статистика, начебто, говорить про те, що рішення 6 кластерів може бути хорошим. Однак ASW є низьким - принаймні для рішень, які мають розумну кількість кластерів (2 або 3 - занадто мало).

           PBC   HG HGSD  ASW ASWw     CH   R2   CHsq R2sq   HC
cluster2  0.56 0.78 0.75 0.38 0.38 110.76 0.15 241.65 0.28 0.14
cluster3  0.51 0.68 0.65 0.27 0.27 108.10 0.26 237.60 0.43 0.17
cluster4  0.54 0.74 0.71 0.25 0.25  88.66 0.30 203.72 0.50 0.14
cluster5  0.59 0.83 0.79 0.25 0.25  75.85 0.33 183.21 0.54 0.09
cluster6  0.59 0.85 0.82 0.24 0.25  66.94 0.35 164.51 0.57 0.08
cluster7  0.47 0.79 0.75 0.18 0.19  64.09 0.38 154.47 0.60 0.12
cluster8  0.47 0.81 0.77 0.20 0.21  59.47 0.40 152.36 0.63 0.11
cluster9  0.48 0.84 0.80 0.19 0.21  56.68 0.42 147.83 0.66 0.10
cluster10 0.47 0.86 0.82 0.19 0.21  53.24 0.44 140.18 0.67 0.08

Відповіді:


11

ASW - це міра узгодженості рішення кластеризації. Високе значення ASW означає, що кластери є однорідними (всі спостереження близькі до центру кластера) і що вони добре розділені. За даними Kaufmann та Rousseuw (1990), значення нижче 0,25 означає, що дані не структуровані. Від 0,25 до 0,5 дані можуть бути структурованими, але це також може бути виправданням. Майте на увазі, що ці значення є орієнтовними і не повинні використовуватися як поріг прийняття рішення. Ці значення теоретично не визначені (вони не базуються на деякій p-величині), але базуються на досвіді авторів. Отже, згідно з цими низькими значеннями ASW, ваші дані здаються досить неструктурованими. Якщо мета кластерного аналізу є лише описовою, то можна стверджувати, що вона виявляє деякі (але лише деякі) найвиразніших моделей. Однак,

Ви також можете спробувати переглянути значення ASW "за кластер" (це задано функцією wcClusterQuality). Можливо, деякі ваші кластери чітко визначені, а деякі можуть бути "хибними" (ASW <0), що призводить до низького загального значення ASW.

Ви можете спробувати скористатися стратегіями завантаження, які повинні дати вам краще підказку. У R функцію clusterbootв пакеті fpcможна використовувати для цієї мети (дивіться на довідковій сторінці). Однак із зваженими даними це не працює. Якщо ваші дані не зважені, я думаю, що варто спробувати.

Нарешті, ви можете детальніше ознайомитись зі своїми даними та категоризацією. Можливо, ваші категорії занадто нестабільні або недостатньо визначені. Однак це, мабуть, не так.

Як ви вже говорили, "відсутність чітко диференційованих кластерів - це не те саме, що відсутність цікавої варіації". Є й інші методи аналізу варіабельності ваших послідовностей, такі як аналіз розбіжностей. Ці методи дозволяють вивчити зв’язки між послідовностями та пояснювальними факторами. Наприклад, ви можете спробувати створити дерева регресії послідовності (функція "seqtree" в пакеті TraMineR).

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.