Де я можу отримати різноманітний набір зразкового тексту? [зачинено]

14

Наразі це запитання не підходить для нашого формату запитань. Ми очікуємо, що відповіді будуть підкріплені фактами, посиланнями або експертними знаннями, але це питання, ймовірно, вимагатиме дискусій, аргументів, опитувань чи розширеної дискусії. Якщо ви вважаєте, що це питання можна вдосконалити та, можливо, знову відкрити, відвідайте довідковий центр для ознайомлення .

Закрито 6 років тому .

Я намагаюся зібрати статистику щодо послідовностей символів або слів, які використовуються в англійській мові для використання в програмному проекті.

Де я можу отримати велику суму (кілька Гб було б непогано) англійського простого тексту, що охоплює різноманітний набір тем?

research statistics

— JSideris
джерело

3

Я якось відчуваю, що вам особливо сподобаються ці ілюстрації

— yannis

@Yannis Rizos Це дивовижні: D.

— JSideris

@Yannis Rizos ох вони гарні ...

— sevenseacat

@YannisRizos Це було закрито кілька років тому. Нарешті я зайнявся редагуванням питання, щоб воно було трохи більш конкретним та кращим для QA-формату. Чи можу я зараз його закрити? (Ви єдина людина в цій темі, яка все ще є модератором).

— JSideris

19

Ви можете користуватися дампами даних Вікіпедії . Дамп даних XML для англійської Вікіпедії , яка включає в себе поточні зміни , складає лише близько 31 Гб, так що я б сказав , що це буде хорошим початком для вашого дослідження. Дамп даних досить великий, тому слід розглянути можливість вилучення текстів з XML за допомогою SAX-аналізатора. WikiXMLJ - це зручний API Java, налаштований на Wikipedia.

І тоді, звичайно, завжди є демпінг даних для обміну стеками . Остання одна не включає в себе всі державні без бета - Stack Exchange , сайти & відповідні сайти Мета аж до вересня 2011 року Але, природно повідомлення Стек Обмін зосереджені на обсязі кожного сайту, так що, ймовірно , не так узагальнена , як ви хочете. Мета публікації, однак, трохи більш загальні, тому ви можете розглянути ці додатково до Вікіпедії.

Я не думаю, що ви знайдете нічого кращого, особливо в простому тексті. Через Центр даних доступно декілька відкритих наборів даних , але я думаю, що дамп даних англійської Вікіпедії дуже близький до того, що ви шукаєте.

— яніс
джерело

1

це якісь круті ресурси.

— hanzolo

Стеки, хоча вони значні, охоплюють дуже вузьке поле дискурсу (за необхідності), тому вони можуть не узагальнити.

— jonsca

О боже, цих файлів величезна кількість! Як тільки я зможу знайти спосіб відкрити їх і відфільтрувати всі хмільні лайна, це повинно чудово працювати. Спасибі!

— JSideris

1

@Bizorke Рада, що можу допомогти. Коли ви закінчите, вам слід оновити питання за допомогою посилання на ваше дослідження.

— янніс

5

Google має набір наборів даних, які вони використовують для визначення ймовірностей n-грамів. Вивчення їхніх двограмових наборів даних має дати гарну картину. Є багато інших корпорацій, для яких ці аналізи вже зроблені.

— Джонска
джерело

3

Я просто пишу те ж саме.

— jcmeloni

@jcmeloni Чудовий розум!

— jonsca

5

Проект Гутенберга має великий корпус текстів англійською мовою, вже в текстовій формі.

Проект Гутенберг пропонує понад 42 000 безкоштовних електронних книг: вибирайте серед безкоштовних книг epub, безкоштовні запальні книги, завантажуйте їх чи читайте в Інтернеті.

Ми підтримуємо електронні книги високої якості: всі наші електронні книги раніше були видані добросовісними видавцями. Ми оцифрували і старанно перечитували їх за допомогою тисяч добровольців ...

— Майкл Коне
джерело

1

Я думав про Project Gutenberg, але не зміг знайти сконцентрований дамп даних. А для включення книги, її авторські права повинні закінчитися, і це загалом означає, що з моменту першого видання книжки минуло 50–70 років. Тому я не думаю, що як набір даних Project Gutenberg є представником мови, якою користується сьогодні.

— янніс

1

Якщо ви хочете щось, що є "представником мови, якою сьогодні користуються", спробуйте коментарі YouTube. Сумно але правда.

— Йорг W Міттаг

@ JörgWMittag - ой. Що мене насправді турбує, це те, як ти не помилився.

— Майкл Коне

@ Jörg W Mittag Це можливо, але тоді окремі слова, характерні для youtube, з’являться дуже часто, як-от: YO OU UT TU UB BE, або ще гірше: FA AK KE AN ND GA AY

— JSideris

1

Для статистики ви, напевно, дивитесь на "Частота біграмів англійською мовою". Погляньте на: Wiki-Bigram Stats

що стосується знаходження великого тексту, зауважте, що частота була б упереджена до типу тексту. Наприклад, якщо проаналізувати адреси, ви отримаєте різні результати від аналізу газетних історій. Якщо ви просто хочете перевірити, ви можете використовувати PDF-файл будь-якої книги (краще не бути математикою чи програмою чи медичною книжкою) та перетворити її в текст, а потім запустити тести. Ви також можете перетворити веб-сторінки газет в текст і працювати над ними.

— Немає шансу
джерело

2

Так, я розумію, що результати будуть упередженими. Мені потрібен ресурс, який охоплює якомога більше предметів. Я розглядав, як завантажувати купу електронних книг, головна проблема полягає в перетворенні їх усіх на текст. Але не завадило б шукати статистику з біграм (я не розумів, що так називаються двобуквні комбінації).

— JSideris

Дякую за Ваш коментар Ви можете конвертувати PDF в текст за допомогою файлу -> Зберегти як текст у читальнику PDF ADOBE. Це посилання також може бути корисним: data-compression.com/english.html

— NoChance

@EmmadKareem OP вимагає декількох ГБ тексту. Ви серйозно пропонуєте використовувати Adobe Reader для отримання тексту з PDF-файлів?

— янніс

@YannisRizos, я не помітив, що кілька ГБ - обов'язкова вимога. Якщо це так, є кращі інструменти, які можна використовувати для цієї мети. Дякуємо, що вказали на це.

— NoChance