Набір даних для розпізнавання іменованої особи в неофіційному тексті


18

Зараз я шукаю мічені набори даних для підготовки моделі для вилучення названих об'єктів з неофіційного тексту (щось подібне до твітів). Оскільки великої літери та граматики часто не вистачає в документах у моєму наборі даних, я шукаю дані про домен, які є трохи більш "неофіційними", ніж статті новин та записи журналів, які є багатьма сьогоднішніми сучасними системами розпізнавання суб'єктів. тренував далі.

Будь-які рекомендації? Поки що мені вдалося знайти 50k жетонів з опублікованих тут твіттерів .


2
Рекомендую з проханням про opendata.stackexchange.com
Air

@Madison May. Ви знайшли набір даних? Я шукаю щось подібне. Спасибі.
ahoffer

Мені довелося попрацювати з твіттерним нервовим корпусом від У. Вашингтона (з посиланням на оригінальне повідомлення).
Медісон, травень


отримали якісь пов’язані хороші анотовані англійські корпуси?
Achyuta nanda sahoo

Відповіді:


6

Як я розумію, це властивості, які ви шукаєте у вибірковому наборі даних:

  1. Текстові дані
  2. Це повинно бути неофіційним, тобто мати друкарські помилки, сленг і в основному щось не професійно відредаговане
  3. Щось інше, ніж Twitter (я не звинувачую вас, Twitter є корисним, але спосіб надмірного використання прикладу джерел даних у пошуку тексту)

Ось кілька рекомендацій:

  1. Електронні листи з корпусу SpamAssassin - зауважте, що доступні як "ham" (не-спам), так і спам-набори даних
  2. набір даних microblogPCU від UCI, це дані, зібрані з мікроблогів користувачів Sina Weibo. як є)
  3. Amazon Commerce оглядає набір даних з UCI
  4. У мішок-O-слів набору даних , спробуйте використовувати електронну пошту Enron
  5. Набір даних двадцяти груп
  6. Ця приємна колекція SMS-спаму
  7. Ви завжди можете скребти (витягнути) власні текстові дані з Інтернету; Я не впевнений , яка мова або статистичний пакет ви використовуєте, але пакети XPath на основі доступні в R ( rvest, scrapeR, і т.д.) і Python для досягнення цієї мети

1
Чи будь-який із цих наборів даних позначається з названими об'єктами? Я вважаю, що саме це шукало ОП.
Містер Філ

3

Перевірте це:

Репозиторій тестових доменів для вилучення інформації: http://www.isi.edu/info-agents/RISE/repository.html

DBpedia: http://wiki.dbpedia.org/Завантаження32 ( дзеркало )

Посилання оновлено:

http://www.isi.edu/integration/RISE/

https://github.com/dbpedia/extraction-framework/wiki/The-DBpedia-Data-Set


1
Оновіть ці посилання, оскільки жодне з них більше не працює.
Містер Філ

0

Деякі джерела, якими я користувався:

Думаю, ці набори даних будуть корисними для вашого завдання

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.