Зараз я шукаю мічені набори даних для підготовки моделі для вилучення названих об'єктів з неофіційного тексту (щось подібне до твітів). Оскільки великої літери та граматики часто не вистачає в документах у моєму наборі даних, я шукаю дані про домен, які є трохи більш "неофіційними", ніж статті новин та записи журналів, які є багатьма сьогоднішніми сучасними системами розпізнавання суб'єктів. тренував далі.
Будь-які рекомендації? Поки що мені вдалося знайти 50k жетонів з опублікованих тут твіттерів .