Ви можете користуватися дампами даних Вікіпедії . Дамп даних XML для англійської Вікіпедії , яка включає в себе поточні зміни , складає лише близько 31 Гб, так що я б сказав , що це буде хорошим початком для вашого дослідження. Дамп даних досить великий, тому слід розглянути можливість вилучення текстів з XML за допомогою SAX-аналізатора. WikiXMLJ - це зручний API Java, налаштований на Wikipedia.
І тоді, звичайно, завжди є демпінг даних для обміну стеками . Остання одна не включає в себе всі державні без бета - Stack Exchange , сайти & відповідні сайти Мета аж до вересня 2011 року Але, природно повідомлення Стек Обмін зосереджені на обсязі кожного сайту, так що, ймовірно , не так узагальнена , як ви хочете. Мета публікації, однак, трохи більш загальні, тому ви можете розглянути ці додатково до Вікіпедії.
Я не думаю, що ви знайдете нічого кращого, особливо в простому тексті. Через Центр даних доступно декілька відкритих наборів даних , але я думаю, що дамп даних англійської Вікіпедії дуже близький до того, що ви шукаєте.