Використання алгоритму ЕМ для зв'язування записів

9

Мене цікавить зв'язування записів у двох наборах даних за прізвищем, прізвищем та роком народження. Чи можна це зробити за допомогою алгоритму ЕМ, і якщо так, то як?

Розглянемо наступний запис у 1-му як приклад: Карл Маккарті, 1967 рік. Я прошу пошук усіх записів у другому наборі даних і призначу відстань jaro-winkler між 1-м іменем та Carl та відстань jaro-winkler між прізвищем та Маккарті. Ці відстані є ймовірнісними, як і відстань між родовими родами. Ми поєднуємо ці 3 ймовірності (помножимо? Середнє?) На 1.

Тепер приходить частина правила прийняття рішення. Давайте класифікуємо всі ймовірності від найвищої до найнижчої. По-перше, ми хочемо, щоб P (перший удар відповідає матчу)> = поріг. По-друге, ми також хочемо, щоб P (перший удар відповідає матчу) / P (другий удар є збігом)> = поріг, якщо P (другий удар відповідає). По-третє, ми хочемо, щоб перше звернення в цьому другому наборі даних відповідало не більше 1 особі в 1-му наборі даних з Карлом Маккарті, 1967 рік.

Як можна визначити ці пороги?

Я вважаю за краще підходи в Stata та / або Perl.

Див., Наприклад:

http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1479910/pdf/amia2003_0259.pdf

(Хоча з цим я все ще не повністю дотримуюся того, чому і як, і які входи та виходи, а також припущення та наскільки вони обмежують).

— користувач1690130
джерело

Чи думали ви про використання зворотного зв'язку в Stata?

— Мастеров Димитрій Вікторович

4

Абсолютно алгоритм ЕМ був використаний для імовірнісного зв'язку. Статей на цю тему дуже багато, Віклер може бути корисним щодо теоретичних деталей:

http://www.census.gov.edgekey.net/srd/papers/pdf/rr2000-05.pdf

Також тут доступне програмне забезпечення для зв’язку даних, розроблене Кевіном Кемпбелом:

http://the-link-king.com/

Програмне забезпечення можна безкоштовно завантажити, і Кевін Кемпбелл пропонує підтримку за окрему плату. Код написаний на SAS, тому вам знадобиться базовий пакет SAS.

— RobertF
джерело

Дякую! Я прочитав 2 статті Вінклера, але не повністю їх зрозумів. Я зібрав ЕМ з цього документу. Також я не знаю, як користуватися SAS. Я знаю, що в perl є EM-модуль, який я б використовував, але я не впевнений, чому EM підходить або як ним користуватися. Концептуально, як ЕМ відповідає на вищезазначені питання?

— користувач1690130

Я розумію, що алгоритм ЕМ корисний для моделювання ймовірності позитивної відповідності, оскільки він враховує невідомі (або "приховані") ймовірності неправильного з'єднання двох різних записів або неправильного з'єднання двох відповідних записів. Оцінки цих ймовірностей уточнюються під час кожного кроку алгоритму з метою максимізації функції ймовірності.

— RobertF

Які входи я надаю? Універсальна проблема та мітка? І це випльовує оптимальну відповідність?

— користувач1690130

0

Існує програмне забезпечення RELAIS, яке здійснює запис зв’язків із:

6) Імовірнісний зв'язок запису (Оцінка параметрів моделі Феллегі та Солтера за допомогою ЕМ (очікування-максимізація).

RELAIS реалізований у Java та R та має архітектуру баз даних (MySQL).

Є ще додаткова документація про зв'язок записів, доступна в рамках проекту інтеграції даних ESSnet .

— джуріо
джерело