Nagios - це добре, добре, що, можливо, регулярно працює системне тестування (селен).
Редагувати: Hyperic та Groundwork також виглядають цікаво.
Ймовірно, існує система наборів тестів, яка також може тримати тестування під тиском і для вас. Я не пам’ятаю це ім’я з маківки, можливо, хтось може згадати одне нижче.
Інші речі, які я люблю робити:
Найкращий девіз для інфраструктури - це завжди виправлення, виявлення, ремонт. Підніміть його, дістаньтесь до його кореня і вилікуйте / запобігайте, якщо можете.
Оскільки система існує на багатьох рівнях, ми повинні тестувати на багатьох рівнях:
Редагувати: всі помилки та попередження розміщувати безпосередньо у вашому менеджері по електронній пошті. Таким чином ви можете відстежувати випадки в одному місці.
1) Підключення : стежте за підключенням до Інтернету з сервера та зовні. Запишіть це десь
2) Сервер : відстежуйте всі необхідні вам процеси, щоб переконатися, що вони працюють, а не закріплюють сервер. Використовуйте сервер HP або щось еквівалентне із сповіщенням про несправність апаратного забезпечення, яке він може робити з рівня BIOS. Повідомте та зареєструйте, якщо вони є.
3) Програмне забезпечення : Визначте ключове програмне забезпечення, яке завжди потрібно запускати. Встановіть рівні продуктивності, якщо такі є, а потім контролюйте їх. Нагіос повинен допомогти в цьому. На вікнах це може бути трохи більше. Коли виникає виняток, ви повинні мати можливість запустити з нього сценарій для автоматичного перезапуску процесів. Система моєї мрії дозволяє мені взаємодіяти з серверами за допомогою SMS, якщо сервер сприймає це як виняток, який я повинен дозволити, або такий, який відбудеться автоматично, якщо я не скасую SMS. Одного дня..
4) Віддалене живлення : переконайтесь, що можливості віддаленого скидання живлення знаходяться у вас у руці. Можливо, вам доведеться запланувати щотижневі перезавантаження, якщо ви коли-небудь використовуєте Windows для чогось.
5) Тестування бізнес-логіки : регулярно запускайте сценарії, що перевіряють робочий процес вашої системи. Селен, мабуть, може досягти цього, але мені також подобається реєструвати результати, щоб сказати, що це працювало в цей час, і ці файли мали помилки. Якщо можливо де-небудь, попросіть системний монітор через ваші сценарії.
6) Резервні копії : зробіть резервну копію, яку ви можете встановити та забути. Якщо ви можете завантажувати речі у віртуальні машини, було б ідеально, оскільки ви можете масштабувати, переміщувати або розгортати будь-яку частину своєї інфраструктури де завгодно. У мене були випадки, коли я переміщував мертвий сервер на свій ноутбук, дозволяючи йому працювати в vmware, поки я вирішував проблему.