Привітання,
Я хотів би запитати думку колективів та переглянути розподілені системи моніторингу, що ви використовуєте та що вам відомо, що може поставити галочки у моїх полях?
Вимоги досить складні;
Немає жодної точки відмови. Дійсно. Я мертвий серйозний! Необхідно мати можливість переносити пошкодження одного / декількох вузлів, як "майстер", так і "працівник", і ви можете припустити, що жодне місце моніторингу ("сайт") не має в ньому декількох вузлів або знаходяться в одній мережі. Тому це, ймовірно, виключає традиційні методи HA, такі як DRBD або Keepalive.
Розподілена логіка, я хотів би розгорнути 5+ вузлів у декількох мережах, у кількох центрах обробки даних та на кількох континентах. Я хочу, щоб "Пташине око" переглядав мою мережу та програми з точки зору моїх клієнтів, бонусні бали за логіку моніторингу не зациклювались, коли у вас 50+ вузлів або навіть 500+ вузлів.
Необхідно вміти обробляти досить розумну кількість перевірок хоста / послуги, a la Nagios, для показників бальних парків передбачається 1500-2500 хостів і 30 послуг на хоста. Було б дуже приємно, якби додавання більше вузлів моніторингу дозволило вам масштабувати відносно лінійно, можливо, через 5 років я, можливо, буду шукати моніторинг 5000 хостів та 40 служб на хост! Додаючи з моєї примітки вище про "розподілену логіку", було б непогано сказати:
- У звичайних умовах ці перевірки повинні виконуватися на $ n або n% моніторингових вузлів.
- Якщо виявлено збій, запустіть перевірку на ще $ n або n% вузлів, співвіднесіть результати та використовуйте їх, щоб визначити, чи були виконані критерії для подання сповіщення.
Графіки та зручні функції управління. Нам потрібно відстежувати наші домовленості про домовленості та розуміння того, чи є наші «високодоступні» додатки до 24x7, дещо корисними. В ідеалі пропоноване рішення повинно складати звіти "поза коробкою" з мінімальними фафами.
Повинно мати надійну API або плагін для розробки замовлених чеків.
Потрібно чітко розуміти сповіщення. Я не хочу обов'язково знати (через SMS, о 3 ранку!), Що один вузол моніторингу вважає, що мій основний роутер не працює. Я дійсно хочу знати , якщо певний відсоток з них згоден , що що - то в стилі фанк відбувається;) По суті, я говорю тут про «Кворум» Логіка, або застосування здорового глузду до розподіленого божевілля!
Я готовий розглянути як комерційні, так і варіанти з відкритим кодом, хоча я вважаю за краще відмовитися від програмного забезпечення, яке коштує мільйони фунтів :-) Я також готовий прийняти, що там може бути нічого, що позначає всі ці скриньки, але хотів запитати у колективу, що.
Розмірковуючи про вузли моніторингу та їх розміщення, майте на увазі, що більшість із них будуть виділені сервери в довільних мережах Інтернет-провайдерів і, таким чином, значною мірою поза моєю сферою контролю. Рішення, які покладаються на канали BGP та інші складні мережеві витівки, швидше за все, не підійдуть.
Я також повинен зазначити, що я або оцінював, розгортав або широко використовував / налаштовував більшість ароматів з відкритим кодом у минулому, включаючи Nagios, Zabbix та друзів - вони насправді не погані інструменти, але вони загалом випадають ". розподілений "аспект, особливо щодо логіки, обговорюваної в моєму запитанні та" розумних "попереджень.
Раді уточнити будь-які потрібні моменти. Ура, хлопці та дівчата :-)