Я хотів би знати, як співставити поштові адреси, коли їхній формат відрізняється або коли одна з них введена в оману.
Поки що я знайшов різні рішення, але думаю, що вони досить старі і не дуже ефективні. Я впевнений, що існують кращі методи, тож якщо у вас є для мене посилання, я впевнений, що це може зацікавити декількох людей.
Я знайшов рішення (приклади наведено в R):
Відстань Левенштейна, яка дорівнює кількості символів, які ви повинні вставити, видалити або змінити, щоб перетворити одне слово в інше.
agrep("acusait", c("accusait", "abusait"), max = 2, value = TRUE)
## [1] "accusait" "abusait"
Порівняння фонем
library(RecordLinkage)
soundex(x<-c('accusait','acusait','abusait'))
## [1] "A223" "A223" "A123"
Використання коректора правопису (врешті-решт, байєсівського типу, як Петра Норвіга) , але не дуже ефективний за адресою, я думаю.
Я думав про те, щоб скористатись пропозиціями Google, але це також не дуже ефективно для особистих поштових адрес.
Ви можете уявити собі підхід під наглядом машинного навчання, але для цього потрібно зберегти помилкові запити користувачів, що для мене не є можливим.