Є багато факторів, які можуть зігратись, тому я не думаю, що існує багато загальних рекомендацій.
Ви повинні провести оцінку за меншим масштабом, можливо, з 1/5-го початкового набору даних, щоб побачити, як поводяться справи, коли ви кидаєте очікуване індексацію та пошук пошуку при налаштуванні. Це дозволить вам зрозуміти, скільки місця фактично будуть використовувати ваші дані в пошуковій системі. Для еластичного пошуку залежить, чи зберігаєте ви json-джерело та як аналізуються поля та чи зберігаються вони.
EC2 може бути розумним способом оцінити еластичний пошук без великих витрат на годину.
Для програмного забезпечення, заснованого на кластері, як-от еластичного пошуку, існують компроміси між збереженням кластера меншими та більшими. Великий кластер приємний тим, що, коли ви втрачаєте сервер, потрібно менше перерозподіляти дані. Менший кластер споживає менше енергії і його легше підтримувати.
Ми запускаємо кластер з 35 мільйонами документів з загальним розміром індексу близько 300 ГБ х 2, оскільки всі індекси копіюються. Для підтримки цього і дуже великої кількості пошукових запитів у нас є 4 вузли, кожен з 24 ядрами, 48 ГБ оперативної пам’яті та 1 ТБ пам’яті з 10 К дисками в raid10. Нещодавно ми збільшили розмір диска, щоб забезпечити більше місця для голови.
Для вашого випадку я рекомендую більше оперативної пам’яті та більше диска. Можливо, ви можете заощадити гроші на процесорах із цим обсягом пошуку.
Низький обсяг пошуку насправді погіршує продуктивність, оскільки кеші (як внутрішні для використовуваного s / w, так і диска ОС) не будуть добре прогріті.
Сподіваюся, це допоможе, Пол