Вилучення ключового слова / фрази з тексту за допомогою бібліотек Deep Learning


20

Можливо, це занадто широко, але я шукаю посилання на те, як використовувати глибоке навчання у завданні підбиття тексту.

Я вже реалізував узагальнення тексту, використовуючи стандартні підходи до частоти слів і ранжування речень, але я хотів би вивчити можливість використання методів глибокого навчання для цього завдання. Я також пройшов кілька реалізацій, наданих на wildml.com, використовуючи Convolutional Neural Networks (CNN) для аналізу настроїв; Мені хотілося б знати, як можна використовувати такі бібліотеки, як TensorFlow або Theano для узагальнення тексту та вилучення ключових слів. Минуло тиждень, як я почав експериментувати з мережами Neural, і я дуже радий бачити, як продуктивність цих бібліотек порівнюється з моїми попередніми підходами до цієї проблеми.

Я особливо шукаю цікаві статті та проекти github, пов'язані з узагальненням тексту за допомогою цих рамок. Чи може хто-небудь надати мені деякі довідки?

Відповіді:


15

Google Research Blog повинен бути корисним в контексті TensorFlow .

У вищевказаній статті є посилання на набір даних з аннотаційним англійським Gigaword, який звичайно використовується для узагальнення тексту.

Документ Суцкевера та співавторів під назвою « Навчання послідовності до послідовності з нейронних мереж» за 2014 рік може стати вагомим початком у вашій подорожі, оскільки виявляється, що для коротших текстів підсумовування можна вивчити від кінця до кінця за допомогою технології глибокого навчання.

Нарешті, тут є чудовий сховище Github, що демонструє узагальнення тексту під час використання TensorFlow.


16

Це відкрита область досліджень, і це, безумовно, залежить від способу вирішення проблеми. Якщо ви говорите про багатодокументальне узагальнення, то проблема дещо інша, ніж якщо б ви говорили про однодокументальне узагальнення.

Варто коротко переглянути літературу.

Посилання, яке надає u / Society Of Data Scientist, є чудовим та корисним для завдання абстрактного узагальнення в одному документі. Також проведена робота над екстрактивним узагальненням, яка визначає важливі пропозиції для вилучення.

Rush et. al має хороший документ про абстрактне узагальнення з увагою , яке ґрунтується на глибокому вивченні.

Для екстрактивного підведення підсумків ви можете використовувати LSTM для створення свого класифікатора та використання стандартних бібліотек TensorFlow / Torch, однак, схоже, немає жодних поточних публікацій щодо використання глибокого вивчення для цього підходу.

Ось кілька додаткових репост GitHub:


Дякую @franciscojavierarceo, я перегляну вищезгадані статті.
shanky_thebearer

4

Схоже, це більш видобувне узагальнення, якщо ви шукаєте ключові слова. Ось кілька робіт, які, ймовірно, мають реалізацію:

Нейронний підсумок шляхом вилучення речень і слів

Екстрактивне узагальнення з використанням глибокого навчання

Напівконтрольовані згорткові нейронні мережі для категоризації тексту за допомогою вбудовування регіону

Крім того, SpaCy (не пов'язаний) має хороший блог про загальну архітектуру завдань з вилучення тексту.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.