Технічно для обчислення вимірювання дис (подібності) між індивідами за номінальними атрибутами більшість програм спочатку перекодують кожну номінальну змінну в набір фіктивних бінарних змінних, а потім обчисляють деякий показник для бінарних змінних. Ось формули деяких часто використовуваних двійкових заходів подібності та несхожості .
Що таке фіктивні змінні (їх також називають одноактивними)? Нижче 5 осіб, дві номінальні змінні (A з 3 категоріями, B з 2 категоріями). 3 манекени, створені замість А, 2 манекени, створені замість Б.
ID A B A1 A2 A3 B1 B2
1 2 1 0 1 0 1 0
2 1 2 1 0 0 0 1
3 3 2 0 0 1 0 1
4 1 1 1 0 0 1 0
5 2 1 0 1 0 1 0
(Немає необхідності виключати одну змінну манекена як "зайву", як ми зазвичай це робимо в регресії з манекенами. Це не практикується в кластеризації, хоча в особливих ситуаціях ви можете розглянути цей варіант.)
Існує багато заходів для бінарних змінних, проте не всі вони логічно відповідають манекеновим бінарним змінним, тобто колишнім номінальним. Ви бачите, що для номінальної змінної факт "2 особи відповідають" та факт "2 особи не відповідають" мають однакове значення. Але розглянемо популярний Jaccard міра , деаa + b + c
- а - кількість манекенів 1 для обох особин
- b - кількість манекенів 1 для цього і 0 для цього
- c - кількість манекенів 0 для цього і 1 для цього
- d - кількість манекенів 0 для обох
бcаа2 а2 a + b + cвідстань. Подивіться, скільки синонімів - ви обов'язково знайдете щось із цього у своєму програмному забезпеченні!
Інтуїтивна обгрунтованість коефіцієнта подібності Dice пов'язана з тим, що це просто співвідношення співвідношення (або відносна згода ). Для фрагмента даних вище візьміть номінальний стовпець A
та обчисліть 5x5
квадратну симетричну матрицю з або 1
(обидва особи потрапили в одну категорію), або 0
(не в одній категорії). Обчисліть аналогічно матрицю для B
.
A 1 2 3 4 5 B 1 2 3 4 5
_____________ _____________
1| 1 1| 1
2| 0 1 2| 0 1
3| 0 0 1 3| 0 1 1
4| 0 1 0 1 4| 1 0 0 1
5| 1 0 0 0 1 5| 1 0 0 0 1
Підсумуйте відповідні записи двох матриць і розділіть на 2 (кількість номінальних змінних) - ось вам з матрицею коефіцієнтів Dice. (Отже, насправді вам не потрібно створювати манекени, щоб обчислити Dice. Операції з матрицею, ймовірно, можуть робити це швидше, як тільки описано.) Дивіться пов’язану тему на Dice для асоціації номінальних атрибутів .
Хоча Dice - це найбільш очевидний захід, який потрібно використовувати, коли потрібно (не) функцію подібності між випадками, коли атрибути є категоричними, можна застосовувати й інші бінарні заходи - якщо знайти їх формулу, що задовольняє міркування щодо ваших номінальних даних.
a + da + b + c + dггb + cгг2= p ( 1 - SМ)p
Але ...
г
relation with Dice
Similarities
Russell and Rao (simple joint prob) RR proportional
Simple matching (or Rand) SM linear
Jaccard JACCARD monotonic
Sokal and Sneath 1 SS1 monotonic
Rogers and Tanimoto RT monotonic
Sokal and Sneath 2 SS2 monotonic
Sokal and Sneath 4 SS4 linear
Hamann HAMANN linear
Phi (or Pearson) correlation PHI linear
Dispersion similarity DISPER linear
Dissimilarities
Euclidean distance BEUCLID monotonic
Squared Euclidean distance BSEUCLID linear
Pattern difference PATTERN monotonic (linear w/o d term omitted from formula)
Variance dissimilarity VARIANCE linear
Оскільки у багатьох застосунках матриці наближення, як, наприклад, у багатьох методах кластерного аналізу, результати не змінюватимуться або плавно змінюватимуться при лінійному (а іноді навіть при монотонному) перетворенні близькостей, можливо, це може бути виправдано величезною кількістю бінарні заходи, крім Dice, щоб отримати однакові або подібні результати. Але спершу слід розглянути / дослідити, як конкретний метод (наприклад, зв'язок в ієрархічній кластеризації) реагує на задану трансформацію близькостей.
Якщо ваш запланований кластеризація або аналіз MDS чутливий до монотонних перетворень відстаней, вам краще утриматися від використання заходів, зазначених у таблиці вище як "монотонні" (і, таким чином, так, не годиться використовувати подібність Жакарда або неквадратичну евклідову відстань з манекеном , тобто колишні номінальні атрибути).