Маючи багато текстових документів (на природній мові, неструктурованих), які можливі способи їх анотування за допомогою деяких смислових метаданих? Наприклад, розглянемо короткий документ:
I saw the company's manager last day.
Щоб мати змогу витягувати з неї інформацію, її потрібно зазначати додатковими даними, щоб бути менш неоднозначною. Процес пошуку таких метаданих не викликає сумнівів, тому припустимо, що це робиться вручну. Питання полягає в тому, як зберігати ці дані таким чином, щоб подальший аналіз на них можна було зробити зручніше / ефективніше?
Можливим підходом є використання тегів XML (див. Нижче), але це здається занадто багатослівним, і, можливо, є кращі підходи / рекомендації щодо зберігання таких метаданих у текстових документах.
<Person name="John">I</Person> saw the <Organization name="ACME">company</Organization>'s
manager <Time value="2014-5-29">last day</Time>.