Де знайти великий текстовий корпус? [зачинено]


16

Я шукаю великий (> 1000) текстовий корпус для завантаження. Переважно зі світовими новинами чи якимись репортажами . Я знайшов лише один із патентами. Будь-які пропозиції?


Здається, ця тема є поза темою. Див meta.stats.stackexchange.com/questions/1032 / ... .
whuber

Це питання видається поза темою, оскільки йдеться про пошук набору даних, а не про проведення статистичного аналізу
Пітер Флом - Відновити Моніку

2
Ну, це незручно, адже це питання дуже корисне.
Sideshow Bob

@guaka, не пишіть про такі старі публікації за такі незначні зміни, особливо публікація, яка закрита. Це правда, що наша стильова перевага - це не мати «подяки», але за щось таке другорядне, ми просто залишимо це.
gung - Відновіть Моніку

Відповіді:




6

Текстовий корпус Reuters є класикою в цій галузі, і його можна знайти тут


Це не найцікавіший (або різноманітний) корпус. Ліцензія також є обмежувальною щодо Wikileaks (американські документи з загальнодоступним доступом) або wikinews.
ariddell

@ariddell Я згоден, але він зазвичай використовується у вступних прикладах NLP, і його досить великий, щоб бути корисним у навчанні, але досить малий, щоб його можна було проаналізувати на хорошому ноутбуці.
richiemorrisroe



Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.