Встановити подібність - обчислити індекс Жаккарда без квадратичної складності


14

У мене є група з n наборів, для яких мені потрібно обчислити якесь значення "унікальності" або "подібності". Я визначив індекс Жакарда як відповідний показник. На жаль, індекс Жаккарда працює лише на двох наборах одночасно. Для того, щоб обчислити схожість між усіма наборами, знадобиться в порядку n 2 обчислення Жакарда.нn2

(Якщо це допомагає, зазвичай становить від 10 до 10000, і кожен набір містить в середньому 500 елементів. Зрештою, мені байдуже, наскільки подібні будь-які два конкретні набори - скоріше, мені цікаво лише, яка внутрішня схожість всієї групи множин є. (Іншими словами, середнє значення (або, принаймні, досить точне наближення середнього значення) всіх індексів Жаккарда в групі))n

Два питання:

  1. Чи існує спосіб використання індексу Жакарда без складності ?n2
  2. Чи є кращий спосіб обчислити схожість / унікальність набору для групи наборів, ніж спосіб, який я запропонував вище?

Ви могли б спочатку уточнити, що ви маєте на увазі під внутрішньою схожістю?
Суреш

Іншими словами, середнє значення (або принаймні досить точне наближення середнього значення) всіх індексів Жаккарда в групі.

5
Якщо ви готові наблизити відповідь, ви можете використовувати хеш-хід, щоб приблизно оцінити відстань Жакарда, а потім використати отримане подання для обчислення бажаного середнього.
Суреш

6
Я не знаю, що ви маєте на увазі під «достатньо точним», але один із способів оцінити середній показник багатьох речей - це просто обчислити декілька з них (показники Жаккарда кількох пар множин у даному випадку) навмання та обчислити їх середнє значення. Тоді ви можете скористатися прив'язкою Черноффа, щоб отримати верхню межу ймовірності того, що ця оцінка далеко не справжня середня величина.
Цуйосі Іто

Відповіді:


4

Варіантом може бути використання схеми підпису [1], фільтрування на основі розміру : схема, яка використовує інформацію про розміри, щоб зменшити кількість заданих пар, які потрібно врахувати.

Вони також експериментують із зваженою формою; де ваги базуються на IDF.

[1] Арасу, Арвінд, Венкатеш Ганті та Рагхав Каушик. "Приєднується ефективна точна схожість набору". У працях 32-ї міжнародної конференції з дуже великих баз даних, 918–929. VLDB '06. Фонд VLDB, 2006


Це посилання, здається, померло. Спробуйте оновити його на vldb.org/conf/2006/p918-arasu.pdf .
j_random_hacker

0

Іншим варіантом може бути використання локального wiki-посилання на хеш-чутливість . Я бачив, що його використовують у виявленні подібності спільноти Wu та Zou ( Інкрементальний метод виявлення спільноти для систем соціального тегування, що використовують хеш-чутливість , Neural Networks 58: 14–28; ACM DL ), який в основному визначає схожість між цілими чи набори струн


1
Будь ласка, узагальнюйте вміст посилань та цитуйте статтю. Якщо посилання залишаються несвіжими, поточна відповідь стає марною.
vonbrand
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.