Я шукаю великий (> 1000) текстовий корпус для завантаження. Переважно зі світовими новинами чи якимись репортажами . Я знайшов лише один із патентами. Будь-які пропозиції?
Я шукаю великий (> 1000) текстовий корпус для завантаження. Переважно зі світовими новинами чи якимись репортажами . Я знайшов лише один із патентами. Будь-які пропозиції?
Відповіді:
Текстовий корпус Reuters є класикою в цій галузі, і його можна знайти тут
http://endb-consolidated.aihit.com/datasets.htm містить 10К компаній з текстовими описами
Якщо прийом не є проблемою, ви можете спробувати
http://www.infochimps.com/datasets/20-newsgroups-dataset-de-duped-version
а також існує багато інших подібних наборів даних в infochimp, залежно від вашого бюджету.
З повагою, Енді.
Якщо ви хочете заздалегідь обчислити n-грам, ви можете спробувати архів книг Google: