Де я можу отримати різноманітний набір зразкового тексту? [зачинено]


14

Я намагаюся зібрати статистику щодо послідовностей символів або слів, які використовуються в англійській мові для використання в програмному проекті.

Де я можу отримати велику суму (кілька Гб було б непогано) англійського простого тексту, що охоплює різноманітний набір тем?


3
Я якось відчуваю, що вам особливо сподобаються ці ілюстрації
yannis

@Yannis Rizos Це дивовижні: D.
JSideris

@Yannis Rizos ох вони гарні ...
sevenseacat

@YannisRizos Це було закрито кілька років тому. Нарешті я зайнявся редагуванням питання, щоб воно було трохи більш конкретним та кращим для QA-формату. Чи можу я зараз його закрити? (Ви єдина людина в цій темі, яка все ще є модератором).
JSideris

Відповіді:


19

Ви можете користуватися дампами даних Вікіпедії . Дамп даних XML для англійської Вікіпедії , яка включає в себе поточні зміни , складає лише близько 31 Гб, так що я б сказав , що це буде хорошим початком для вашого дослідження. Дамп даних досить великий, тому слід розглянути можливість вилучення текстів з XML за допомогою SAX-аналізатора. WikiXMLJ - це зручний API Java, налаштований на Wikipedia.

І тоді, звичайно, завжди є демпінг даних для обміну стеками . Остання одна не включає в себе всі державні без бета - Stack Exchange , сайти & відповідні сайти Мета аж до вересня 2011 року Але, природно повідомлення Стек Обмін зосереджені на обсязі кожного сайту, так що, ймовірно , не так узагальнена , як ви хочете. Мета публікації, однак, трохи більш загальні, тому ви можете розглянути ці додатково до Вікіпедії.

Я не думаю, що ви знайдете нічого кращого, особливо в простому тексті. Через Центр даних доступно декілька відкритих наборів даних , але я думаю, що дамп даних англійської Вікіпедії дуже близький до того, що ви шукаєте.


1
це якісь круті ресурси.
hanzolo

Стеки, хоча вони значні, охоплюють дуже вузьке поле дискурсу (за необхідності), тому вони можуть не узагальнити.
jonsca

О боже, цих файлів величезна кількість! Як тільки я зможу знайти спосіб відкрити їх і відфільтрувати всі хмільні лайна, це повинно чудово працювати. Спасибі!
JSideris

1
@Bizorke Рада, що можу допомогти. Коли ви закінчите, вам слід оновити питання за допомогою посилання на ваше дослідження.
янніс

5

Google має набір наборів даних, які вони використовують для визначення ймовірностей n-грамів. Вивчення їхніх двограмових наборів даних має дати гарну картину. Є багато інших корпорацій, для яких ці аналізи вже зроблені.


3
Я просто пишу те ж саме.
jcmeloni

@jcmeloni Чудовий розум!
jonsca

5

Проект Гутенберга має великий корпус текстів англійською мовою, вже в текстовій формі.

Проект Гутенберг пропонує понад 42 000 безкоштовних електронних книг: вибирайте серед безкоштовних книг epub, безкоштовні запальні книги, завантажуйте їх чи читайте в Інтернеті.

Ми підтримуємо електронні книги високої якості: всі наші електронні книги раніше були видані добросовісними видавцями. Ми оцифрували і старанно перечитували їх за допомогою тисяч добровольців ...


1
Я думав про Project Gutenberg, але не зміг знайти сконцентрований дамп даних. А для включення книги, її авторські права повинні закінчитися, і це загалом означає, що з моменту першого видання книжки минуло 50–70 років. Тому я не думаю, що як набір даних Project Gutenberg є представником мови, якою користується сьогодні.
янніс

1
Якщо ви хочете щось, що є "представником мови, якою сьогодні користуються", спробуйте коментарі YouTube. Сумно але правда.
Йорг W Міттаг

@ JörgWMittag - ой. Що мене насправді турбує, це те, як ти не помилився.
Майкл Коне

@ Jörg W Mittag Це можливо, але тоді окремі слова, характерні для youtube, з’являться дуже часто, як-от: YO OU UT TU UB BE, або ще гірше: FA AK KE AN ND GA AY
JSideris

1

Для статистики ви, напевно, дивитесь на "Частота біграмів англійською мовою". Погляньте на: Wiki-Bigram Stats

що стосується знаходження великого тексту, зауважте, що частота була б упереджена до типу тексту. Наприклад, якщо проаналізувати адреси, ви отримаєте різні результати від аналізу газетних історій. Якщо ви просто хочете перевірити, ви можете використовувати PDF-файл будь-якої книги (краще не бути математикою чи програмою чи медичною книжкою) та перетворити її в текст, а потім запустити тести. Ви також можете перетворити веб-сторінки газет в текст і працювати над ними.


2
Так, я розумію, що результати будуть упередженими. Мені потрібен ресурс, який охоплює якомога більше предметів. Я розглядав, як завантажувати купу електронних книг, головна проблема полягає в перетворенні їх усіх на текст. Але не завадило б шукати статистику з біграм (я не розумів, що так називаються двобуквні комбінації).
JSideris

Дякую за Ваш коментар Ви можете конвертувати PDF в текст за допомогою файлу -> Зберегти як текст у читальнику PDF ADOBE. Це посилання також може бути корисним: data-compression.com/english.html
NoChance

@EmmadKareem OP вимагає декількох ГБ тексту. Ви серйозно пропонуєте використовувати Adobe Reader для отримання тексту з PDF-файлів?
янніс

@YannisRizos, я не помітив, що кілька ГБ - обов'язкова вимога. Якщо це так, є кращі інструменти, які можна використовувати для цієї мети. Дякуємо, що вказали на це.
NoChance
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.