Визначення подій, пов’язаних з датами в абзаці


13

Чи існує алгоритмічний підхід для визначення того, що дати, зазначені в абзаці, співвідносяться з певними подіями (фразами) в абзаці?

Приклад, розглянемо наступний параграф:

У червні 1970 року великий вождь склав присягу. Але лише після травня 1972 року після смерті Державного міністра він взяв на озброєння країну. Поки він користувався підтримкою населення до середини 1980-х років, його вплив згодом почав падати.

Чи існує алгоритм (детермінований або стохастичний) #, який може генерувати два параметри (дата, подія), де подія має на увазі абзац, який відбувся в дату ? У наведеному вище випадку:

  • (Червень 1970 р. Великий лідер склав присягу)
  • (Травень 1972 р. Перебрав лейці)

    або ще краще

  • (Травень 1972 р . Великий вождь взяв на себе лейці)
  • (1980 р., Падіння впливу)

# Пізніше доповнення


2
Здається, ця проблема містить три фази: 1) дати вилучення, 2) події вилучення та 3) співвідношення обох наборів даних. 1) це, безумовно, можливо, і я можу уявити гідну евристику для 3), але як ви розраховуєте вирішити 2)?
Рафаель

1
@Raphael Приємно перефразовуючи моє запитання!
перевірка123

Ну, чи є у вас інформація про 2), наприклад, обмежений набір цікавих подій (тобто слів)? Ви хочете вилучити всі пари іменників / дієслів, якщо вони мають дату?
Рафаель

Ви також бажаєте витягнути часові рамки? У своєму прикладі розглянемо (<= May 1972, death of the Minister of State)або (<= Mid-1980, [the great leader] enjoyed popular support).
Рафаель

@Raphael Вибачте за (дуже) пізню відповідь. Щодо 2) Ні. Я намагаюся узагальнити підхід.
перевірка123

Відповіді:


4

Загалом, проблема ідентифікації дат та інших часових маркерів у тексті називається проблемою вилучення тимчасових посилань . Зв'язаний пошук допоможе вам отримати документи, пов'язані з цим.


Не знав, що проблема має назву. Подивіться більше на це і побачу, чи зможу я знайти щось вартісне. :)
чек123

2

Оскільки ви попросите алгоритмічний підхід, я буду такий же впертий, як алгоритм. Вибачте, я ставився до цього питання так, але оскільки це не здається складною теоретичною проблемою, я синтезую можливі підходи.

Питання: чи можете ви дати мені алгоритмічне визначення дати та конкретної події?

Якщо ви можете: Оскільки ваше визначення є алгоритмічним, то це, мабуть, якась формальна граматика , і вашою проблемою буде налаштування цієї граматики, щоб зрозуміти кожен випадок, який потрібно розглянути. (Мене цікавить, чи можете ви дати мені точне визначення, яке не є формальною граматикою)

Якщо ви не можете: тоді принаймні ви можете привести приклади. Тоді добре. Найкращий підхід - і я тільки думаю про це - алгоритми машинного навчання, яким вам доведеться тренуватися, щоб розпізнати свої дати та потім свої події. (Використання корпусу речень, позначених від руки) Однак це досить непомітно в порівнянні з деяким великим вручну виробленим регулярним виразом, який, ймовірно, зробить цю роботу. Якщо ви насправді дуже хочете це зробити, я думаю, що найбільш ефективним буде такий вид повторної передачі даних, поданий як параметр алгоритму навчання, але краще запитайте експертів з машинного навчання.

Удачі в цьому, набагато простіше просто говорити про це (в обох випадках).


1
Однак, я думаю, що для поєднання дат та подій обов'язково знадобляться деякі стохастичні моделі.
Рафаель

Дати у більшості форматів я можу зафіксувати за допомогою regexp. Маючи певну логіку програмування, я можу витягнути речення навколо дат. Проблема тоді полягає в тому, що мені потрібна модель або розподіл ймовірностей, що коли певний зразок речення, напр .: Кішка з'їла мишу 25 серпня. [<article> <noun> <verb> <article> <noun> <preposition> <date>], з'являється тоді (під) набір шаблону, Кішка з'їла мишу (в нашому випадку), співвідноситься з датою y (25 серпня) з вірогідністю z.
чек123

@jmad Якщо ви не заперечуєте, чи могли ви налаштувати форматування своєї публікації? Використання стилю цитат для нецитати (чи самоцитування?) Досить заплутано.
uli
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.