Перше замовлення: чи чуйне?
Якщо ви не можете увійти, виникають більші проблеми. Це, як правило, випускається у двох варіантах: збій обладнання та програмне забезпечення. Обидва потенційно катастрофічні. Щоб запобігти помилкам DFA, спочатку перевірте загальний стан апаратного забезпечення - зазвичай достатньо простого огляду.
Другий порядок: Чи впорядковані системи системи в доброму стані та стані?
Перевірте "Золоту тріаду" систем:
- Достатньо часу для процесора вільне для обробки
- Достатньо місця на диску є вільним для зберігання
- Достатня кількість пам'яті вільна для робочих навантажень
В останні кілька десятиліть тріада перетворилася на "квадроцикл", який включає комунікації (мережа):
- Зв'язок функціональний, чуйний та має потужність
Третій порядок: яка гострота питання?
Які програми чи послуги впливають? У порядку зменшення тяжкості вона системна (загальносистемна), кластерна (група програм) чи ізольована (конкретна програма)? Кластери програм, як правило, активізуються через те, що конкретна основна послуга не спрацьовує або не відповідає. Системні проблеми іноді пов'язані з цим (думаю, конфлікти DNS або IP), але зазвичай ключовим є знати, де їх шукати.
Четвертий порядок: чи діагностичні засоби надають корисні дані, що стосуються питання?
Тепер, коли у вас є інформація про стан здоров'я системи (другий порядок) та які її частини виникають проблеми (третій порядок), це повинно полегшити звуження, де проблема.
Повідомлення про помилки або файли журналу повинні бути загальною точкою маршруту в цій дорозі.
Проблеми з процесором:
Проблеми з диском / випуски IO:
Проблеми з пам'яттю:
Проблеми з підключенням:
- пінг
- маршрут (і арп, і рапр та друзі)
- iptables, ipchains, ipfw (для тих, хто BSD там)
- traceroute або mtr
- хости, nslookup або копати
- netstat
Найпоширеніша скарга (яку я чую):
Електронна пошта не доставляється досить швидко (більше хвилини від відправки до отримання одержувачем) або електронна пошта відхиляє мою спробу надсилання. Зазвичай це зводиться до обмежувача швидкості в Postfix, який починається під час шторму спаму, що впливає на здатність приймати внутрішню доставку.
Приклад із реального життя:
Однак це не завжди так. Один раз проблема не зникала незалежно від перезавантаження служби; тож через 3 хвилини настав час почати оглядатися. Процесор був зайнятий, але нижче 100%, але навантаження зросла до 15 на коробці всього з 2 ядрами і загрожувала підвищитись. Верхня команда виявила, що поштова система перевантажена разом із поштовим сканером, але ніяких дочірніх процесів amavis не було видно. Це була підказка - команда чергової пошти (mailq) показала приблизно 150+ недоставлених повідомлень, понад 80% яких були спамом, за останні 20 хвилин Швидке пристосування до зниження обмежувача швидкості (що знизило рівень споживання шторму спаму) при одночасному збільшенні кількості дочірніх процесів сканування електронної пошти (щоб допомогти обробити відставання) з подальшим перезапуском служби вирішило проблему, і система змогла щоб завершити поставки за короткий час.
Причина проблеми полягала в тому, що батьківський процес Amavis загрожував мертвим процесом, а дочірні процеси в кінцевому підсумку всі пройшли свій шлях (вони припиняються після стількох сканувань, щоб запобігти витоку пам'яті). Тому в Postfix з'явилися SMTP-процеси, які намагалися зв’язатися ... з повітрям ... для того, щоб зробити потрібне спам / вірус. У дистрибутиві, який я використовував, були застарілі пакети, які ніколи не оновлюватимуться; оскільки встановлення було замінено через рік, я вручну "переоцінив" установку на останню версію, яка включала кілька виправлень помилок. З тих пір у мене не було такої ж проблеми.