Рекомендації щодо апаратного забезпечення Elastic Search [закрито]

Це питання навряд чи допоможе майбутнім відвідувачам; це стосується лише невеликої географічної області, конкретного моменту часу або надзвичайно вузької ситуації, яка загалом не застосовується до світової аудиторії Інтернету. Для отримання додаткової інформації щодо цього питання відвідайте довідковий центр .

Закрито 8 років тому .

Чи є якісні посібники для апаратного рівня для підтримки ElasticSearch? Чи хороші місця для початку - рекомендації щодо Lucene або Solr? Ми дивимося на те, щоб розпочати розгортання, починаючи з

27 мільйонів документів, 8 ТБ даних
додайте 300 000 документів на день

Потім масштабуйте це приблизно в 10 разів

270 мільйонів документів, 80 ТБ даних
додати 3 мільйони документів / день

Це дивний випадок використання, коли запитів буде в тисячі / день, але час відповіді повинен залишатися достатньо низьким для гарного досвіду роботи з веб-програмою Ajaxy.

hardware scaling elasticsearch

— Джеймс Сокол
джерело

@MarkHenderson: це справжнє (неіграшкове) та цікаве питання. Я думаю, що ваша оцінка того, що вона є "занадто локалізованою", є нецільовою.

— Девід Дж.

Девіде, питання було закрито відповідно до нашого FAQ, ми не займаємось питаннями покупок

— Марк Хендерсон

Є багато факторів, які можуть зігратись, тому я не думаю, що існує багато загальних рекомендацій.

Ви повинні провести оцінку за меншим масштабом, можливо, з 1/5-го початкового набору даних, щоб побачити, як поводяться справи, коли ви кидаєте очікуване індексацію та пошук пошуку при налаштуванні. Це дозволить вам зрозуміти, скільки місця фактично будуть використовувати ваші дані в пошуковій системі. Для еластичного пошуку залежить, чи зберігаєте ви json-джерело та як аналізуються поля та чи зберігаються вони.

EC2 може бути розумним способом оцінити еластичний пошук без великих витрат на годину.

Для програмного забезпечення, заснованого на кластері, як-от еластичного пошуку, існують компроміси між збереженням кластера меншими та більшими. Великий кластер приємний тим, що, коли ви втрачаєте сервер, потрібно менше перерозподіляти дані. Менший кластер споживає менше енергії і його легше підтримувати.

Ми запускаємо кластер з 35 мільйонами документів з загальним розміром індексу близько 300 ГБ х 2, оскільки всі індекси копіюються. Для підтримки цього і дуже великої кількості пошукових запитів у нас є 4 вузли, кожен з 24 ядрами, 48 ГБ оперативної пам’яті та 1 ТБ пам’яті з 10 К дисками в raid10. Нещодавно ми збільшили розмір диска, щоб забезпечити більше місця для голови.

Для вашого випадку я рекомендую більше оперативної пам’яті та більше диска. Можливо, ви можете заощадити гроші на процесорах із цим обсягом пошуку.

Низький обсяг пошуку насправді погіршує продуктивність, оскільки кеші (як внутрішні для використовуваного s / w, так і диска ОС) не будуть добре прогріті.

Сподіваюся, це допоможе, Пол

— Пол
джерело

Про які документи ви говорите? Журнали? Справжні документи?

— Мануель Раубер