Яка оптимальна функція відстані для індивідів, коли атрибути номінальні?


12

Я не знаю, яку функцію відстані між особами використовувати у випадку номінальних (не упорядкованих категоричних) атрибутів. Я читав підручник, і вони пропонують функцію простого узгодження, але деякі книги пропонують мені змінити номінальний на двійкові атрибути і використовувати коефіцієнт Жаккарда . Однак що робити, якщо значення номінального атрибута не дорівнюють 2? що робити, якщо в цьому атрибуті є три або чотири значення?

Яку функцію відстані слід використовувати для номінальних атрибутів?


1
Я вважаю цю публікацію корисною у статистиці Cramer's V та Chi.
KarthikS

Відповіді:


18

Технічно для обчислення вимірювання дис (подібності) між індивідами за номінальними атрибутами більшість програм спочатку перекодують кожну номінальну змінну в набір фіктивних бінарних змінних, а потім обчисляють деякий показник для бінарних змінних. Ось формули деяких часто використовуваних двійкових заходів подібності та несхожості .

Що таке фіктивні змінні (їх також називають одноактивними)? Нижче 5 осіб, дві номінальні змінні (A з 3 категоріями, B з 2 категоріями). 3 манекени, створені замість А, 2 манекени, створені замість Б.

ID   A    B      A1 A2 A3      B1 B2
1    2    1       0  1  0       1  0
2    1    2       1  0  0       0  1
3    3    2       0  0  1       0  1
4    1    1       1  0  0       1  0
5    2    1       0  1  0       1  0

(Немає необхідності виключати одну змінну манекена як "зайву", як ми зазвичай це робимо в регресії з манекенами. Це не практикується в кластеризації, хоча в особливих ситуаціях ви можете розглянути цей варіант.)

Існує багато заходів для бінарних змінних, проте не всі вони логічно відповідають манекеновим бінарним змінним, тобто колишнім номінальним. Ви бачите, що для номінальної змінної факт "2 особи відповідають" та факт "2 особи не відповідають" мають однакове значення. Але розглянемо популярний Jaccard міра , деaa+b+c

  • а - кількість манекенів 1 для обох особин
  • b - кількість манекенів 1 для цього і 0 для цього
  • c - кількість манекенів 0 для цього і 1 для цього
  • d - кількість манекенів 0 для обох

bcaa2a2a+b+cвідстань. Подивіться, скільки синонімів - ви обов'язково знайдете щось із цього у своєму програмному забезпеченні!

Інтуїтивна обгрунтованість коефіцієнта подібності Dice пов'язана з тим, що це просто співвідношення співвідношення (або відносна згода ). Для фрагмента даних вище візьміть номінальний стовпець Aта обчисліть 5x5квадратну симетричну матрицю з або 1(обидва особи потрапили в одну категорію), або 0(не в одній категорії). Обчисліть аналогічно матрицю для B.

A    1  2  3  4  5        B    1  2  3  4  5
     _____________             _____________
  1| 1                      1| 1
  2| 0  1                   2| 0  1
  3| 0  0  1                3| 0  1  1
  4| 0  1  0  1             4| 1  0  0  1
  5| 1  0  0  0  1          5| 1  0  0  0  1

Підсумуйте відповідні записи двох матриць і розділіть на 2 (кількість номінальних змінних) - ось вам з матрицею коефіцієнтів Dice. (Отже, насправді вам не потрібно створювати манекени, щоб обчислити Dice. Операції з матрицею, ймовірно, можуть робити це швидше, як тільки описано.) Дивіться пов’язану тему на Dice для асоціації номінальних атрибутів .

Хоча Dice - це найбільш очевидний захід, який потрібно використовувати, коли потрібно (не) функцію подібності між випадками, коли атрибути є категоричними, можна застосовувати й інші бінарні заходи - якщо знайти їх формулу, що задовольняє міркування щодо ваших номінальних даних.

a+га+б+c+гггб+cгг2=p(1-SМ)p

Але ...

г

                                                       relation with Dice
    Similarities
       Russell and Rao (simple joint prob)    RR          proportional
       Simple matching (or Rand)              SM          linear
       Jaccard                                JACCARD     monotonic
       Sokal and Sneath 1                     SS1         monotonic
       Rogers and Tanimoto                    RT          monotonic
       Sokal and Sneath 2                     SS2         monotonic
       Sokal and Sneath 4                     SS4         linear
       Hamann                                 HAMANN      linear
       Phi (or Pearson) correlation           PHI         linear
       Dispersion similarity                  DISPER      linear
    Dissimilarities
       Euclidean distance                     BEUCLID     monotonic
       Squared Euclidean distance             BSEUCLID    linear
       Pattern difference                     PATTERN     monotonic (linear w/o d term omitted from formula)
       Variance dissimilarity                 VARIANCE    linear

Оскільки у багатьох застосунках матриці наближення, як, наприклад, у багатьох методах кластерного аналізу, результати не змінюватимуться або плавно змінюватимуться при лінійному (а іноді навіть при монотонному) перетворенні близькостей, можливо, це може бути виправдано величезною кількістю бінарні заходи, крім Dice, щоб отримати однакові або подібні результати. Але спершу слід розглянути / дослідити, як конкретний метод (наприклад, зв'язок в ієрархічній кластеризації) реагує на задану трансформацію близькостей.

Якщо ваш запланований кластеризація або аналіз MDS чутливий до монотонних перетворень відстаней, вам краще утриматися від використання заходів, зазначених у таблиці вище як "монотонні" (і, таким чином, так, не годиться використовувати подібність Жакарда або неквадратичну евклідову відстань з манекеном , тобто колишні номінальні атрибути).


так, ви праві, ці значення .. тому один атрибут має три можливі значення
Джейн До

2
припустимо, у мене є два значення одного і того ж атрибута, "м'яч", "нал", "пал", і я перетворив це на 11 01 і 00. Я хочу виміряти відстань Жакарда між 11 і 00. У цьому випадку тоді відстань 1? оскільки a = 0 b = 2 c = 0 і d = 0? будь ласка, дай мені знати!
Джейн До

Я сумую за вашим останнім коментарем. Будь ласка, запитайте чітко. Або скористайтеся моїми вище прикладними даними з 5 людьми та 2 номінальними атрибутами та скажіть, з якою особою, з якою ви хотіли б мене порівняти, та за допомогою якого показника (подібності).
ttnphns
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.