Набір даних для розпізнавання іменованої особи в неофіційному тексті

Зараз я шукаю мічені набори даних для підготовки моделі для вилучення названих об'єктів з неофіційного тексту (щось подібне до твітів). Оскільки великої літери та граматики часто не вистачає в документах у моєму наборі даних, я шукаю дані про домен, які є трохи більш "неофіційними", ніж статті новин та записи журналів, які є багатьма сьогоднішніми сучасними системами розпізнавання суб'єктів. тренував далі.

Будь-які рекомендації? Поки що мені вдалося знайти 50k жетонів з опублікованих тут твіттерів .

dataset nlp

— Медісон Мей
джерело

Рекомендую з проханням про opendata.stackexchange.com

— Air

@Madison May. Ви знайшли набір даних? Я шукаю щось подібне. Спасибі.

— ahoffer

Мені довелося попрацювати з твіттерним нервовим корпусом від У. Вашингтона (з посиланням на оригінальне повідомлення).

— Медісон, травень

Корпорація FYI з позначеним текстом (англійські газети чи будь-який позначений текст)

— Франк Дернонкурт

отримали якісь пов’язані хороші анотовані англійські корпуси?

— Achyuta nanda sahoo

Відповіді:

Як я розумію, це властивості, які ви шукаєте у вибірковому наборі даних:

Текстові дані
Це повинно бути неофіційним, тобто мати друкарські помилки, сленг і в основному щось не професійно відредаговане
Щось інше, ніж Twitter (я не звинувачую вас, Twitter є корисним, але спосіб надмірного використання прикладу джерел даних у пошуку тексту)

Ось кілька рекомендацій:

Електронні листи з корпусу SpamAssassin - зауважте, що доступні як "ham" (не-спам), так і спам-набори даних
набір даних microblogPCU від UCI, це дані, зібрані з мікроблогів користувачів Sina Weibo. як є)
Amazon Commerce оглядає набір даних з UCI
У мішок-O-слів набору даних , спробуйте використовувати електронну пошту Enron
Набір даних двадцяти груп
Ця приємна колекція SMS-спаму
Ви завжди можете скребти (витягнути) власні текстові дані з Інтернету; Я не впевнений , яка мова або статистичний пакет ви використовуєте, але пакети XPath на основі доступні в R ( rvest, scrapeR, і т.д.) і Python для досягнення цієї мети

— Хак-Р
джерело

Чи будь-який із цих наборів даних позначається з названими об'єктами? Я вважаю, що саме це шукало ОП.

— Містер Філ

Перевірте це:

Репозиторій тестових доменів для вилучення інформації: http://www.isi.edu/info-agents/RISE/repository.html

DBpedia: http://wiki.dbpedia.org/Завантаження32 ( дзеркало )

Посилання оновлено:

http://www.isi.edu/integration/RISE/

https://github.com/dbpedia/extraction-framework/wiki/The-DBpedia-Data-Set

— Sreejithc321
джерело

Оновіть ці посилання, оскільки жодне з них більше не працює.

— Містер Філ

Деякі джерела, якими я користувався:

Класичний корпус CONLL : набір даних CONLL
Одне джерело Kaggle, яке варто спробувати: Kaggle NER Corpus
OntoNotes Release 5.0: Onto Notes
Завдання на розпізнавання біологічної особи: Біо особи
Ще один набір даних, пов'язаних з електронною поштою: Набір даних електронної пошти Enron

Думаю, ці набори даних будуть корисними для вашого завдання

— Gyan Ranjan
джерело