Подібність Жакарду задається
сi j= рp + q+ r
де,
p = # атрибутів, позитивних для обох об'єктів
q = # атрибутів 1 для i та 0 для j
r = # атрибутів 0 для i та 1 для j
Тоді як косинусна схожість = де A і B - об'єктні вектори.A ⋅ B∥ A ∥ ∥ B ∥
Простіше кажучи, за косинусною схожістю кількість загальних атрибутів ділиться на загальну кількість можливих атрибутів. Тоді як у подібності Жакарда кількість загальних атрибутів ділиться на кількість атрибутів, що існують принаймні в одному з двох об'єктів.
І є багато інших заходів подібності, кожен зі своїми ексцентриситетами. Вирішуючи, який з них використовувати, спробуйте продумати кілька репрезентативних випадків і опрацюйте, який індекс дасть найбільш корисні результати для досягнення вашої мети.
Індекс Cosine може бути використаний для ідентифікації плагіату, але не буде хорошим індексом для ідентифікації дзеркальних сайтів в Інтернеті. В той час, як індекс Жакарда, буде хорошим показником для виявлення дзеркальних сайтів, але не настільки чудовим для збору плагіату копій макаронних виробів (у більшому документі).
Застосовуючи ці показники, ви повинні ретельно продумати свою проблему та розібратися, як визначити подібність. Після того, як ви маєте на увазі визначення, ви можете піти на покупки для індексу.
Редагувати:
Раніше в цій відповіді я мав приклад, який в кінцевому рахунку був невірним. Завдяки декільком користувачам, які вказали на це, я видалив помилковий приклад.