Я новачок у послідовності аналізу, і мені було цікаво, як ви реагуєте, якщо середні ширини силуету (ASW) від кластерного аналізу матриць невідповідності на основі оптимального відповідності низькі (близько 25). Чи здається доречним зробити висновок про те, що існує мала основна структура, яка б дозволяла кластеризувати послідовності? Чи можете ви ігнорувати низький рівень ASW на основі інших заходів якості кластера (я вклав деякі нижче)? Або ймовірно, що вибір, зроблений під час аналізу послідовностей або наступних кластерних аналізів, може бути відповідальним за низькі числа ASW?
Будь-які пропозиції будуть вдячні. Дякую.
У випадку, якщо потрібно більше контексту:
Я вивчаю 624 послідовності невідповідностей робочих годин (тобто невідповідності між кількістю годин, які людина вважає за краще працювати за тиждень, і кількістю годин, які вони фактично працюють) серед людей 20 років. Усі послідовності, які я досліджую, мають тривалість 10. Мій об’єкт послідовності має п'ять станів (M = хоче більше годин, S = хоче однакових годин, F = хоче менше годин, O = поза робочою силою, а U = безробітний ).
Я не робив систематичного обліку того, як результати ASW змінюються залежно від різних комбінацій підходів. Тим не менш, я спробував низькі та середні витрати на інделі (.1 і .6 максимальної вартості заміни - я більше дбаю про порядок подій, ніж їх терміни) та різні процедури кластеризації (палата, середня кількість та пам.). Моє загальне враження, що кількість ASW залишається низькою.
Можливо, низькі результати ASW мають сенс. Я б очікував, що ці держави будуть надходити в різних порядках, і держави можуть повторюватися. Видалення дублюючих спостережень лише знижує N з 624 до 536. Вивчення даних виявляє, що дійсно є багато розмаїття та послідовностей, які я вважав би дуже різними, наприклад, люди, які весь час хотіли однакових годин, розробили невідповідність, вирішили невідповідність і коливається вперед і назад між наявністю і відсутністю невідповідності. Можливо, відсутність чітко диференційованих кластерів - це не те саме, що відсутність цікавих варіацій. Однак слабкі результати кластеру, здається, залишають мене без приємного способу узагальнення послідовностей.
Результати методу Уорда з інделем, встановленим на рівні .1 від вартості заміни 2 Ця статистика, начебто, говорить про те, що рішення 6 кластерів може бути хорошим. Однак ASW є низьким - принаймні для рішень, які мають розумну кількість кластерів (2 або 3 - занадто мало).
PBC HG HGSD ASW ASWw CH R2 CHsq R2sq HC
cluster2 0.56 0.78 0.75 0.38 0.38 110.76 0.15 241.65 0.28 0.14
cluster3 0.51 0.68 0.65 0.27 0.27 108.10 0.26 237.60 0.43 0.17
cluster4 0.54 0.74 0.71 0.25 0.25 88.66 0.30 203.72 0.50 0.14
cluster5 0.59 0.83 0.79 0.25 0.25 75.85 0.33 183.21 0.54 0.09
cluster6 0.59 0.85 0.82 0.24 0.25 66.94 0.35 164.51 0.57 0.08
cluster7 0.47 0.79 0.75 0.18 0.19 64.09 0.38 154.47 0.60 0.12
cluster8 0.47 0.81 0.77 0.20 0.21 59.47 0.40 152.36 0.63 0.11
cluster9 0.48 0.84 0.80 0.19 0.21 56.68 0.42 147.83 0.66 0.10
cluster10 0.47 0.86 0.82 0.19 0.21 53.24 0.44 140.18 0.67 0.08