Застосування та відмінності для подібності Жакарда та подібності косину


27

Подібність Жакарда та косинусова схожість - це два дуже поширених виміру при порівнянні подібності предметів. Однак мені не дуже зрозуміло, в якій ситуації потрібно віддати перевагу іншій.

Чи може хтось допомогти з’ясувати відмінності цих двох вимірювань (різниця в понятті чи принципі, а не у визначенні чи обчисленнях) та їх кращих застосунках?

Відповіді:


19

Подібність Жакарду задається sij=pp+q+r

де,

p = # атрибутів, позитивних для обох об'єктів
q = # атрибутів 1 для i та 0 для j
r = # атрибутів 0 для i та 1 для j

Тоді як косинусна схожість = де A і B - об'єктні вектори.ABAB

Простіше кажучи, за косинусною схожістю кількість загальних атрибутів ділиться на загальну кількість можливих атрибутів. Тоді як у подібності Жакарда кількість загальних атрибутів ділиться на кількість атрибутів, що існують принаймні в одному з двох об'єктів.

І є багато інших заходів подібності, кожен зі своїми ексцентриситетами. Вирішуючи, який з них використовувати, спробуйте продумати кілька репрезентативних випадків і опрацюйте, який індекс дасть найбільш корисні результати для досягнення вашої мети.

Індекс Cosine може бути використаний для ідентифікації плагіату, але не буде хорошим індексом для ідентифікації дзеркальних сайтів в Інтернеті. В той час, як індекс Жакарда, буде хорошим показником для виявлення дзеркальних сайтів, але не настільки чудовим для збору плагіату копій макаронних виробів (у більшому документі).

Застосовуючи ці показники, ви повинні ретельно продумати свою проблему та розібратися, як визначити подібність. Після того, як ви маєте на увазі визначення, ви можете піти на покупки для індексу.

Редагувати: Раніше в цій відповіді я мав приклад, який в кінцевому рахунку був невірним. Завдяки декільком користувачам, які вказали на це, я видалив помилковий приклад.


2
Ви можете пояснити, чому індекс косину краще для виявлення плагіату, а не добре для визначення дзеркальних ділянок?
dharm0us

Я відчуваю, що деякі частини цієї відповіді не інтуїтивно зрозумілі. "Наприклад, якщо у вас є два об'єкти з 10 атрибутами, з можливих 100 атрибутів. Далі вони мають усі 10 атрибутів спільним. У цьому випадку індекс Жаккарда буде 1, а індекс косинусу буде 0,001." Це перекладається на щось подібне cosine_similarity(10*[1]+90*[0], 10*[1]+90*[0]). Звичайно, подібність косинусу також була б 1, оскільки обидва міри ігнорують ті елементи, які в обох векторах дорівнюють нулю.
fsociety

1
Ця відповідь неправильна щодо косинусної схожості. Будь ласка, врахуйте відповідь користувача18596
Робін

"Простіше кажучи, у косинусній подібності кількість загальних атрибутів ділиться на загальну кількість можливих атрибутів" -> це абсолютно невірно. Позначення визначає векторні крапкові продукти та норми.
Шон Оуен

23

Я не можу коментувати, оскільки у мене немає жодного статусу, але перевірена відповідь неправильна, а також не відповідає на запитання. ∥A∥ означає норму L2 A, тобто довжину вектора в евклідовому просторі, а не розмірність вектора А. Іншими словами, ви не рахуєте 0 біт, ви складаєте 1 біт і приймаєте квадратний корінь. Тож приклад 10 атрибутів вектора 100 довжини теж неправильний. Вибачте, я не маю реальної відповіді щодо того, коли слід використовувати який показник, але я не можу просто дозволити помилковій відповіді залишатись безвідмовною.


2
Ви абсолютно праві. Прикро, що стільки людей голосують за неправильну відповідь. Подібність косину, як описано у статті вікіпедії, не враховує 0 біт. en.wikipedia.org/wiki/Cosine_s
подобниity

11

Подібність Жакарда використовується для двох типів двійкових випадків:

  1. Симетричний, де 1 і 0 мають однакове значення (стать, сімейний стан тощо)
  2. Асиметричний, де 1 і 0 мають різний рівень важливості (тестування позитивного на захворювання)

Подібність косину зазвичай використовується в контексті пошуку тексту для порівняння документів або електронних листів. Якщо косинусна схожість між двома векторами терміна документа більша, то обидва документи мають більше спільних слів

Ще одна відмінність - 1 - Коефіцієнт Жакарда може використовуватися як міра несхожості або відстані, тоді як косинусна подібність не має таких конструкцій. Схожа річ - відстань Тонімото, яка використовується в систематиці.


Чому так, що лише Жакард може використовуватися як міра несхожості? Я розумію, що cosineце інший, але недійсний захід.
javadba

3

Як зазначалося вище, перевірена відповідь неправильна.

Де і є бінарні вектори, вони можуть бути витлумачені як набори індексів зі значенням 1. Тому давайте розглянемо безлічі і .ab A BAB

Тоді подібність Жакарду задається

J(A,B)=|AB||AB|=|AB||AB|+|AB|+|BA|

Косинусна подібність дається

C(A,B)=|AB||A||B|=|AB|(|AB|+|AB|)(|AB|+|BA|)

Деякі порівняння:

  • Чисельники тут однакові.
  • Знаменник росте арифметично з розміромтав жакарді, але геометрично в косинусі.|A||B|
  • Знаменник косинусу залежить лише від кількості предметів ута кількість предметів у. Це не залежить від їх перетину.|A||B|

У мене ще немає чіткої інтуїції щодо того, де слід віддати перевагу іншому, окрім того, як зазначав Вікрам Венкат, 1 - Жакард відповідає справжній метриці, на відміну від косинусу; а косинус, природно, поширюється на вектори, що мають цінність.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.