Запитання з тегом «record-linkage»

1
Найсучасніший у дедуплікації
Які найсучасніші методи у дедуплікації записів? Дедуплікацію також іноді називають: зв'язок запису, роздільна здатність сутності, дозвіл ідентичності, злиття / очищення. Я знаю, наприклад, про CBLOCK [1]. Буду вдячний, якщо відповіді включали також посилання на існуюче програмне забезпечення, що реалізує методи. Я знаю, наприклад, що Mahout реалізує навіс-кластеризацію . Є також …

2
Використання алгоритму ЕМ для зв'язування записів
Мене цікавить зв'язування записів у двох наборах даних за прізвищем, прізвищем та роком народження. Чи можна це зробити за допомогою алгоритму ЕМ, і якщо так, то як? Розглянемо наступний запис у 1-му як приклад: Карл Маккарті, 1967 рік. Я прошу пошук усіх записів у другому наборі даних і призначу відстань …
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.