Встановити подібність - обчислити індекс Жаккарда без квадратичної складності

У мене є група з n наборів, для яких мені потрібно обчислити якесь значення "унікальності" або "подібності". Я визначив індекс Жакарда як відповідний показник. На жаль, індекс Жаккарда працює лише на двох наборах одночасно. Для того, щоб обчислити схожість між усіма наборами, знадобиться в порядку обчислення Жакарда. $n$ $n^2$

(Якщо це допомагає, зазвичай становить від 10 до 10000, і кожен набір містить в середньому 500 елементів. Зрештою, мені байдуже, наскільки подібні будь-які два конкретні набори - скоріше, мені цікаво лише, яка внутрішня схожість всієї групи множин є. (Іншими словами, середнє значення (або, принаймні, досить точне наближення середнього значення) всіх індексів Жаккарда в групі)) $n$

Два питання:

Чи існує спосіб використання індексу Жакарда без складності ? $n^2$
Чи є кращий спосіб обчислити схожість / унікальність набору для групи наборів, ніж спосіб, який я запропонував вище?

algorithms time-complexity

— риного
джерело

Ви могли б спочатку уточнити, що ви маєте на увазі під внутрішньою схожістю?

— Суреш

Іншими словами, середнє значення (або принаймні досить точне наближення середнього значення) всіх індексів Жаккарда в групі.

Якщо ви готові наблизити відповідь, ви можете використовувати хеш-хід, щоб приблизно оцінити відстань Жакарда, а потім використати отримане подання для обчислення бажаного середнього.

— Суреш

Я не знаю, що ви маєте на увазі під «достатньо точним», але один із способів оцінити середній показник багатьох речей - це просто обчислити декілька з них (показники Жаккарда кількох пар множин у даному випадку) навмання та обчислити їх середнє значення. Тоді ви можете скористатися прив'язкою Черноффа, щоб отримати верхню межу ймовірності того, що ця оцінка далеко не справжня середня величина.

— Цуйосі Іто

Відповіді:

Варіантом може бути використання схеми підпису [1], фільтрування на основі розміру : схема, яка використовує інформацію про розміри, щоб зменшити кількість заданих пар, які потрібно врахувати.

Вони також експериментують із зваженою формою; де ваги базуються на IDF.

[1] Арасу, Арвінд, Венкатеш Ганті та Рагхав Каушик. "Приєднується ефективна точна схожість набору". У працях 32-ї міжнародної конференції з дуже великих баз даних, 918–929. VLDB '06. Фонд VLDB, 2006

— AT
джерело

Це посилання, здається, померло. Спробуйте оновити його на vldb.org/conf/2006/p918-arasu.pdf .

— j_random_hacker

Іншим варіантом може бути використання локального wiki-посилання на хеш-чутливість . Я бачив, що його використовують у виявленні подібності спільноти Wu та Zou ( Інкрементальний метод виявлення спільноти для систем соціального тегування, що використовують хеш-чутливість , Neural Networks 58: 14–28; ACM DL ), який в основному визначає схожість між цілими чи набори струн

— динос66
джерело

Будь ласка, узагальнюйте вміст посилань та цитуйте статтю. Якщо посилання залишаються несвіжими, поточна відповідь стає марною.

— vonbrand