Я працюю над додатком, який вимагає створення дуже великої бази даних з n-грамів, які існують у великому текстовому корпусі.
Мені потрібні три ефективні типи операцій: пошук та вставка, індексовані самим n-грамом, і запит для всіх n-грамів, які містять суб-n-грам.
Мені це здається, що база даних повинна бути гігантським деревом документів, і бази даних документів, наприклад Монго, повинні вміти виконувати цю роботу добре, але я ніколи не використовував їх у масштабах.
Знаючи формат питань Stack Exchange, я хотів би пояснити, що я не прошу пропозицій щодо конкретних технологій, а про тип бази даних, який я повинен шукати, щоб реалізувати щось подібне в масштабі.