Як ви відстежуєте сервер моніторингу?


14

Тож ми запускаємо Groundworks (з Nagios) на CentOS для моніторингу наших різних серверів та процесів. У мене це налаштування для автоматичного надсилання електронних листів та SMS-повідомлень, коли речі досягають ПОПЕРЕДЖЕННЯ або КРИТИЧНОГО стану. Зазвичай це прекрасно працює. Однак двічі у нас виникли проблеми з Postfix на тому сервері, де Postfix вирішив припинити надсилання електронної пошти. Останній час тривав 4 дні, тому що ніхто з нас не помітив.

Це приводить мене до важливого питання: як я повинен слідкувати за моїм сервером моніторингу?


5
Quis зберігач ipsos зберігання?
Джеймс Л

Хе. Ювенал. Чудово зіграли.
organicveggie

Хто дивиться сторожі? : D
Флорент-Курта

1
@organicveggie, Сервер моніторингу - це також сервер ... З якими проблемами ви зіткнулися б, використовуючи сервер моніторингу для моніторингу сервера моніторингу?
Pacerier

Відповіді:


12

З другого сервера моніторингу, звичайно. Другий може бути набагато простішим, оскільки все, що йому потрібно зробити, - це стежити за першим. І це, безумовно, має контролюватися основною системою моніторингу.

Якщо ваша група є частиною більшої організації з окремими ІТ-інфраструктурами, можливо, ви зможете домовитись про службу моніторингу іншої групи для спостереження за вашою.

Ви також можете переконатися, що сервер щодня надсилає повідомлення "це нормально", і отримайте звичку шукати його. (Це ефективно, лише якщо ви вже не перевантажені звичайними повідомленнями.)


14

Інші люди пропонують надсилати регулярні повідомлення, в яких говориться, що все нормально, але особисто я з цим не згоден. Моніторинг повинен бути мовчазним, якщо немає проблем, і ніколи не слід покладатися на те, щоб користувач помітив, що щось не так, як-от "О, я не отримував щоденну електронну пошту протягом декількох днів". Особливо, якщо у вас є кілька людей, які відповідають на сповіщення, кожен може подумати, що інший вже видалив щоденне повідомлення "Я в порядку".

У нас є зовнішня послуга (яких сотні, але ми використовуємо черв'ячно ), щоб робити HTTP-перевірки нашого моніторингового сервера, щоб переконатися, що він працює і може вийти в Інтернет. Це наша головна турбота про моніторинг. Тоді наш сервер Nagios стежить за всіма нашими клієнтами серверами Nagios.

Але, ви підсумуєте хороший момент. Ми, мабуть, повинні додати URL-адресу HTTP, яка перевіряє чергу постфікса, і якщо вона показує незвичну кількість повідомлень, що, ймовірно, означає, що вона має будь-які в черзі, а потім підняти тривогу. Іншим варіантом було б використання різних методів оповіщення, скажімо, агента доставки SMS, який не є SMTP, а також SMTP, який ми використовуємо в даний час.

У нашому випадку, однак, я не можу пригадати, щоб у нас коли-небудь помирав поштовий сервер. Звичайно, все, для чого використовується поштовий сервер, - це надсилання сповіщень Nagios, тому конфігурація дуже проста і майже ніколи не змінюється.


2
Регулярні ОК-повідомлення не так корисні: ви не можете надійно умовити людину вчинити дії за відсутності стимулу.
Тім Вілліскрофт

@Tim: Вибачте, але "відсутність стимулу" не описує ситуацію, коли очікуваний електронний лист не отримується. У такому випадку я вважаю, що мене "стимулюватиму" розслідувати, чому повідомлення не надійшло. Але, можливо, це тільки я. :)
Стівен Понеділок

1
Я думаю, що пишу, використовуючи психологічні терміни, які не означають, що ви думаєте, що вони означають. Поведінковій психології та авіаційній психології є що сказати системним інженерам. Поле було сильно розроблене під час Другої світової війни, щоб 18-20-річні екіпажі могли літати найсучаснішим літальним апаратом, не розбиваючись, а ще залишати увагу для своїх справжніх військових завдань. Ось чому літаки мають головне світло обережності, а не світло "все гаразд". TLDR (я не думаю, що це слово означає те, що ти думаєш, що воно означає)
Тім Вілліскрофт

1
Я дуже твердо переконаний, що системи не повинні шумувати, якщо немає чогось, що потребує уваги з боку людини. Ми маємо обмежену увагу, і комп’ютери можуть легко переповнити нас невеликими штрихами на кшталт «Я живий!». Крім того, речі, які трапляються через це, не вказують на проблеми, що ставлять людину на думку ігнорувати речі. Я дуже наполегливо працюю над тим, щоб переконатися, що колись стосується людини, це те, що їм дійсно потрібно бачити. Я працюю з кимось, у кого щодня до нього надходять усілякі колоди, які він переглядає. Звичайно, він настільки зайнятий, що не може вийти на обід ...
Шон Рейфшнайдер

1
Я погоджуюся, що служби не повинні надсилати занадто багато повідомлень, або люди швидко починають їх ігнорувати. Однак якщо система моніторингу налаштована правильно, ви не повинні отримувати багато повідомлень. Звичайно, у нас є політика щодо визнання сповіщень від Groundworks / Nagios, яка ефективно зупиняє повідомлення на певний проміжок часу. Якщо це довгостроковий збій, ми відключаємо моніторинг для системи чи служби. Як результат, щоденне повідомлення "Я живий" насправді досить розумне.
organicveggie

5

Очевидно, ваш постфікс також слід відстежувати, але це вже інша тема;)

Я використовую плагін Nagios checker для Firefox , він завжди працює у рядку стану на будь-якому комп’ютері, яким я регулярно користуюся.

Крім того, у мене є власний скрипт на зовнішньому хості, який надсилає хост nagios і надсилає SMS, якщо його не відповідає pings.

Поки (5+ років) це працювало нормально (стук по дереву).


2

Для моніторингу серверного моніторингу (нагіо в нашому випадку) відмінно працює вільний або базовий план Pingdom або alarfox.


Гарні пропозиції. Але в цьому випадку наш сервер моніторингу недоступний за межами брандмауера. Тож Pingdom та Alertfox насправді не працюють для нас.
organicveggie

1

Перше: нехай він надсилає повідомлення "я живий" раз або два на день. По-друге, я запускаю стару машину саме для цієї мети, яка має ще один GSM-модем, невелике ДБЖ тощо та виділене (пряме) підключення до основного сервера моніторингу. Цей також допомагає в пункті 3: Переконайтеся, що ви регулярно перевіряєте стан своїх систем моніторингу. Невелика допоміжна система моніторингу постійно показує сторінку статусу первинної системи в моєму кабінеті.


1

Якщо ваш сервер моніторингу доступний через Інтернет, вам слід контролювати його за допомогою зовнішнього постачальника (наприклад, websitepulse та ін.).

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.