Користувачі не можуть потрапити на свою електронну пошту, генеральний директор не може потрапити на головну сторінку компанії, а ваш пейджер просто зайшов з кодом "911". Що ти робиш, коли все підірветься?
Користувачі не можуть потрапити на свою електронну пошту, генеральний директор не може потрапити на головну сторінку компанії, а ваш пейджер просто зайшов з кодом "911". Що ти робиш, коли все підірветься?
Відповіді:
Перша відповідь - будьте спокійні! Я дізнався, що важкий шлях, який часто панікує, просто погіршує ситуацію. Після того, як це досягнуто, наступне - це фактично встановити, в чому проблема. Скарги користувачів та менеджерів будуть надходити до вас з усіх ракурсів, повідомляючи, що вони не можуть зробити, але не в чому проблема.
Як тільки ви дізнаєтесь про проблему, можете запустити план її виправлення та почати надавати своїм розлюченим користувачам часовий масштаб!
Залишайся спокійним
Не вигадуйте. Дихайте! (З діафрагми це допомагає.) Якщо ви вивчали медитацію, це теж може допомогти.
Якщо ви зіткнулися з надзвичайними стресами, ваше тіло перейде в режим польоту або бою, тому що ваше тіло думає, що перебуває в ситуації життя чи смерті. У цей час ваше тіло фактично перекачає менше крові до деяких частин вашого мозку, зменшуючи такі функції, як міркування. Це ефективно знижує ваш IQ, оскільки інстинкт замість раціональності починає домінувати над вашими функціями мозку. Якщо ви коли-небудь були чи були свідками гострого аргументу, ви можете розпізнати ці симптоми як спалах емоцій у людей, і раціональність приймає відпустку. Пізніше, коли у людей з’явиться шанс охолонути, вони з більшою ймовірністю приймуть помилку чи помиляються, і здатні бачити іншу сторону, але в розпал моменту, тим менше.
Збереження самопочуття та збереження розуму щодо вас дозволить налагодити функціонування мозку на повній потужності та забезпечить прийняття раціональних рішень на основі доказів та причин, а не емоцій та страху.
Трелювання
Тут надзвичайно важливим є ефективне застосування обмежених ресурсів для досягнення найбільшої вигоди за найменших витрат. Прийміть рішення якомога раніше, які речі потрібно виправити ПРАВО ЗАРАЗ, які можуть зачекати трохи часу (години, дні), а які можна чекати нескінченно. Також навчіться усвідомлювати, коли щось неможливо замінити і не варто економити (наприклад, половина маршрутизатора розплавилася, навіть якщо це ваш єдиний, ви не можете його зберегти, придбайте нове і отримайте його на сайті після поспіху або знайдіть щось, що може тимчасово заповнити прогалину).
Зберігати поінформованість про ситуацію
Не дозволяйте вашій увазі бути захопленою якоюсь цікавою проблемою або тим, чого ви ще не зовсім розумієте. Не забудьте зосередитись на великій картині та на роботі над найважливішими справами.
Використовуйте науковий метод
Сформуйте гіпотезу. Визначте, як би ви перевірили цю гіпотезу. Зберіть дані для перевірки гіпотези. Шукайте також не підтверджуючі дані. Уточнюйте свою гіпотезу і повторюйте цикл стільки разів, скільки потрібно, поки ви не будете достатньо впевнені у своїй гіпотезі, щоб вжити заходів.
Будьте прагматичними
Зараз не час догми. Добре взяти кілька ярликів тут і там під час одужання від катастрофи. Це по суті нараховує технічну заборгованість. У багатьох компаніях катастрофічний збій означає катастрофічну втрату доходу. Краще запустити справи, навіть якщо на хиткіх підставах, ніж старанно та ризикувати життєдіяльністю своєї компанії. Як завжди, судження тут є надзвичайно важливим. Іноді має сенс підперти вентилятор коробки, спрямований на серверну стійку, іноді це не так.
Дивитися за собою
Як довго ви працюєте над цією надзвичайною ситуацією? Коли в останній раз ви пили води? Коли ви востаннє їли? Як давно ти прокинувся? Не спаліть себе лише тому, що існує надзвичайна ситуація, знайдіть час, щоб утримуватись зволоженості, годування та відпочинку (на випадок, якщо це довгий багатоденний слоган).
Набір довідки
У вашій компанії майже напевно є багато талановитих людей, які мотивовані та здатні надати допомогу. Будьте обережні, щоб занадто багато людей бігало навколо і створювало проблеми один одному. Також будьте обережні до надокучливих людей, переводячи їх через "стрілянину". Знайдіть людей, які вже хочуть допомогти, змусьте їх працювати над цілеспрямованими завданнями та переконайтесь, що люди спілкуються один з одним.
Спілкуватися
Спілкування є критичним. Ніщо не так страшно, як невідоме. Коли люди не знають нічого, окрім того, що щось порушено, порожнє твердження про те, що це буде резервне копіювання через X годин, є лише м'яко заспокійливим (ще менш заспокійливим після того, як минули X години і все ще порушено). Напруга в грі може спрямовувати вас на надання занадто оптимістичних оцінок часу WAG, але це неправильний курс. Не кажіть просто, що ви працюєте над цим, не просто кажіть, що речі будуть виправлені X часом. Будьте відкриті, покажіть свій процес, докладно описуйте свій прогрес та ваші збої. Позначте проблему, процес її відстеження та свій план виправлення речей (хоч і не заглушуйте людей у деталях). Покажіть, що проблема нерозв'язна, покажіть, що з часом все буде зроблено правильно, покажіть, що в цій проблемі є компетентні люди,
Не панікуйте.
Крок 0. Перевірте, чи не в цьому винна система моніторингу
Негайно забронюйте рейс до країни, що не видає
Спершу перевірте основи, це здається нерозумним, але такі речі
Я знаю, що багато часу можна витратити на пошук рішення, коли проблема знаходиться за течією
Я пінг речі. Що відбувається після цього сильно залежить від результатів пінгу.
Вибачте, але на це питання вже чудово відповіли в улюбленому мультфільмі sysadmin :
RTFLF - Прочитайте файл журналу Frakkin
(Я не можу взяти на це кредит, це все стосується Скотта Хензельмана )
Не намагайтеся ще нічого виправити.
Переконайтеся, що ви точно знаєте, яка реальна, основна проблема. Тепер приступаємо до виправлення речей. Якщо виправити кілька речей, уважно подумайте, які речі можна відкласти (принаймні, до наступного робочого дня!), А які зараз потрібно виправити.
Але найголовніше: як тільки все працює, запитайте, чому "все підірвалося"? Що ти збираєшся зробити, щоб це не повторилося? Чи існують які - небудь кроки , які зробили б рішення легше , якщо це дійсно станеться знову?
Повідомте людям, що ви на цьому, і, якщо можливо, дайте їм оцінку, коли все повернеться до норми.
Що стосується фактичного усунення несправностей, що, очевидно, залежить від того, що не так. Зазвичай я зберігаю колекцію сценаріїв "перевірити стан" для різних служб.
Перевірте кабелі! Я втратив години, перевіряючи інші речі, коли проста заміна кабелю Eth0 вирішила б проблему ...
У вас повинні бути плани на випадок надзвичайних ситуацій.
Основні системи повинні бути розроблені з автоматичним відмовою або з документально підтвердженим та випробуваним планом відновлення.
Чим важливіша система, тим більшу стійкість потрібно вбудувати і тим більш автоматичною вона повинна бути.
Якщо у вас його немає, то це було не важливо, чи не так!
Переконайтесь, що резервна копія вашого резюме є безпечною :) Потім,
Знайдіть спільність. Що є спільним для всіх систем, на які постраждали.
Знайдіть, що змінилося. У вашій організації має бути офіційне управління змінами.
Де новий хлопець ... де начальник ...? Хтось із них взяв ярлик? (це лише швидке перезавантаження сервера, що це може зашкодити)
Мені подобається цей список усунення несправностей Просте додаток для зйомки проблем зараз виправляє все =)
З твердження важко надати конкретний набір дій. Ваш перший крок базуватиметься на:
Очевидно, що вам потрібно зберігати спокій і пильнувати про проблему. Ваш досвід з усунення несправностей у мережі навчить вас, що це може бути щось тривіальне, наприклад:
Сказавши це, це також може бути щось серйозне в категоріях:
Ключовим компонентом є те, наскільки Ви ЗНАЄТЕ про це. Який ваш орієнтир? (з якої точки зору "система вниз"?).