У мене дуже багато адресних рядків:
1600 Pennsylvania Ave, Washington, DC 20500 USA
Я хочу їх розібрати на компоненти:
street: 1600 Pennsylvania Ave
city: Washington
province: DC
postcode: 20500
country: USA
Але, звичайно, дані брудні: вони надходять з багатьох країн багатьма мовами, написані різними способами, містять неправильні написання, відсутні шматки, має зайві сміття тощо.
Зараз наш підхід полягає у використанні правил у поєднанні з нечітким узгодженням газет, але ми хотіли б вивчити методи машинного навчання. Ми позначили дані про навчання для контрольованого навчання. Питання в тому, яка це проблема машинного навчання? Це насправді не здається кластеризацією, класифікацією чи регресією ....
Найближчим, що я можу придумати, було б класифікувати кожен маркер, але тоді ви дійсно хочете класифікувати їх одночасно, задовольняючи обмеження на кшталт "має бути як мінімум одна країна;" і дійсно є багато способів токенізації рядка, і ви хочете спробувати кожен і вибрати найкраще .... Я знаю, що існує річ, яка називається статистичний аналіз, але нічого про це не знаю.
Отже: які методи машинного навчання я міг би вивчити для розбору адрес?