Витягніть найбільш інформативні частини тексту з документів


16

Чи є статті чи дискусії щодо вилучення частини тексту, яка містить найбільше інформації про поточний документ.

Наприклад, у мене є великий корпус документів з одного домену. Є частини тексту, які містять ключову інформацію, про яку йдеться в одному документі. Я хочу витягти деякі з цих частин і використовувати їх як своєрідний підсумок тексту. Чи є корисна документація про те, як досягти чогось подібного.

Було б дуже корисно, якби хтось міг вказати мені на правильний напрямок того, що я повинен шукати чи прочитати, щоб отримати деяке розуміння роботи, яка, можливо, вже була зроблена у цій галузі обробки природних мов.

Відповіді:


23

Те, що ви описуєте, часто досягається за допомогою простого поєднання TF-IDF та екстрактивного узагальнення .

Коротше кажучи, TF-IDF повідомляє про відносну важливість кожного слова в кожному документі порівняно з рештою вашого корпусу. На даний момент у вас є оцінка кожного слова в кожному документі, що наближається до його "важливості". Потім ви можете використовувати ці індивідуальні бали слів для обчислення складеного балу за кожне речення шляхом підсумовування балів кожного слова в кожному реченні. Нарешті, просто візьміть за кожний документ рейтинги з верхнього N балів за кожний документ.

На початку цього року я зібрав ноутбук iPython, який завершився втіленням цього в Python за допомогою NLTK та Scikit-learn: Smattering NLP в Python .


2
Так, це, мабуть, було б. Я можу також додати додаткові ваги до деяких слів, які я вже знаю, що є інформативними. Дякуємо за вашу допомогу та корисні посилання.
MaticDiba

То чи можу я використовувати це на PDF? :)
Адам

Так, ви можете використовувати це над текстом у форматі PDF, припускаючи, що ви вже видобули звичайний текст із PDF, використовуючи щось на зразок pdftotext.
Чарлі Грінбекер

1

Багато методів вилучення ключових слів там залежать від таких факторів, як:

  1. Граматична якість тексту
  2. Довжина тексту
  3. Незалежно від того, чи шукаєте ви одне або фразове ключове слово тощо.

Але в цілому, якщо у вас довгий текст, і ви хочете витягнути ключові слова автоматично з цього, я рекомендую вам переглянути наступні статті:

  1. TextRank

  2. RAKE [Швидке автоматичне вилучення ключових слів]

  3. Топіка

Також витягніть публікацію нижче:

Витягніть спеціальні ключові слова за допомогою тегера NLTK POS у python

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.