Мене цікавить зв'язування записів у двох наборах даних за прізвищем, прізвищем та роком народження. Чи можна це зробити за допомогою алгоритму ЕМ, і якщо так, то як?
Розглянемо наступний запис у 1-му як приклад: Карл Маккарті, 1967 рік. Я прошу пошук усіх записів у другому наборі даних і призначу відстань jaro-winkler між 1-м іменем та Carl та відстань jaro-winkler між прізвищем та Маккарті. Ці відстані є ймовірнісними, як і відстань між родовими родами. Ми поєднуємо ці 3 ймовірності (помножимо? Середнє?) На 1.
Тепер приходить частина правила прийняття рішення. Давайте класифікуємо всі ймовірності від найвищої до найнижчої. По-перше, ми хочемо, щоб P (перший удар відповідає матчу)> = поріг. По-друге, ми також хочемо, щоб P (перший удар відповідає матчу) / P (другий удар є збігом)> = поріг, якщо P (другий удар відповідає). По-третє, ми хочемо, щоб перше звернення в цьому другому наборі даних відповідало не більше 1 особі в 1-му наборі даних з Карлом Маккарті, 1967 рік.
Як можна визначити ці пороги?
Я вважаю за краще підходи в Stata та / або Perl.
Див., Наприклад:
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1479910/pdf/amia2003_0259.pdf
(Хоча з цим я все ще не повністю дотримуюся того, чому і як, і які входи та виходи, а також припущення та наскільки вони обмежують).