Який у вас контрольний список, коли все підірветься?


40

Користувачі не можуть потрапити на свою електронну пошту, генеральний директор не може потрапити на головну сторінку компанії, а ваш пейджер просто зайшов з кодом "911". Що ти робиш, коли все підірветься?

Відповіді:


35

Перша відповідь - будьте спокійні! Я дізнався, що важкий шлях, який часто панікує, просто погіршує ситуацію. Після того, як це досягнуто, наступне - це фактично встановити, в чому проблема. Скарги користувачів та менеджерів будуть надходити до вас з усіх ракурсів, повідомляючи, що вони не можуть зробити, але не в чому проблема.

Як тільки ви дізнаєтесь про проблему, можете запустити план її виправлення та почати надавати своїм розлюченим користувачам часовий масштаб!


3
Це реактивний план. Справжній план відновлення після аварій уже написаний і перевірений для кожного критичного бізнес-процесу.
Spoulson

3
Спаульсон впевнений: але перше, що потрібно зробити, це зрозуміти, чи потрібно активувати план, або якщо перевертання автоматичного вимикача все це виправить.
pjz

1
Це насправді найкраще робити, СУЧАСНА ПОШТА! Після того, як вам доведеться чинити тиск на спину, оскільки, як сказано в коментарях вище, всі кинуться до вашого офісу, щоб сказати вам, що вони можуть їхати куди хочуть. Насправді користувачі більшість часу справді егоїстичні в цей момент, і вони зовсім не хочуть розуміти їх, вони просто хочуть, щоб ЇХ речі працювали, і про все це їм було байдуже ... Тож я повністю згоден з вашим дописом !
Марк-Андре Р.

+1 за відмінність "проблеми" від симптомів.
bmb

59

Залишайся спокійним

Не вигадуйте. Дихайте! (З діафрагми це допомагає.) Якщо ви вивчали медитацію, це теж може допомогти.

Якщо ви зіткнулися з надзвичайними стресами, ваше тіло перейде в режим польоту або бою, тому що ваше тіло думає, що перебуває в ситуації життя чи смерті. У цей час ваше тіло фактично перекачає менше крові до деяких частин вашого мозку, зменшуючи такі функції, як міркування. Це ефективно знижує ваш IQ, оскільки інстинкт замість раціональності починає домінувати над вашими функціями мозку. Якщо ви коли-небудь були чи були свідками гострого аргументу, ви можете розпізнати ці симптоми як спалах емоцій у людей, і раціональність приймає відпустку. Пізніше, коли у людей з’явиться шанс охолонути, вони з більшою ймовірністю приймуть помилку чи помиляються, і здатні бачити іншу сторону, але в розпал моменту, тим менше.

Збереження самопочуття та збереження розуму щодо вас дозволить налагодити функціонування мозку на повній потужності та забезпечить прийняття раціональних рішень на основі доказів та причин, а не емоцій та страху.

Трелювання

Тут надзвичайно важливим є ефективне застосування обмежених ресурсів для досягнення найбільшої вигоди за найменших витрат. Прийміть рішення якомога раніше, які речі потрібно виправити ПРАВО ЗАРАЗ, які можуть зачекати трохи часу (години, дні), а які можна чекати нескінченно. Також навчіться усвідомлювати, коли щось неможливо замінити і не варто економити (наприклад, половина маршрутизатора розплавилася, навіть якщо це ваш єдиний, ви не можете його зберегти, придбайте нове і отримайте його на сайті після поспіху або знайдіть щось, що може тимчасово заповнити прогалину).

Зберігати поінформованість про ситуацію

Не дозволяйте вашій увазі бути захопленою якоюсь цікавою проблемою або тим, чого ви ще не зовсім розумієте. Не забудьте зосередитись на великій картині та на роботі над найважливішими справами.

Використовуйте науковий метод

Сформуйте гіпотезу. Визначте, як би ви перевірили цю гіпотезу. Зберіть дані для перевірки гіпотези. Шукайте також не підтверджуючі дані. Уточнюйте свою гіпотезу і повторюйте цикл стільки разів, скільки потрібно, поки ви не будете достатньо впевнені у своїй гіпотезі, щоб вжити заходів.

Будьте прагматичними

Зараз не час догми. Добре взяти кілька ярликів тут і там під час одужання від катастрофи. Це по суті нараховує технічну заборгованість. У багатьох компаніях катастрофічний збій означає катастрофічну втрату доходу. Краще запустити справи, навіть якщо на хиткіх підставах, ніж старанно та ризикувати життєдіяльністю своєї компанії. Як завжди, судження тут є надзвичайно важливим. Іноді має сенс підперти вентилятор коробки, спрямований на серверну стійку, іноді це не так.

Дивитися за собою

Як довго ви працюєте над цією надзвичайною ситуацією? Коли в останній раз ви пили води? Коли ви востаннє їли? Як давно ти прокинувся? Не спаліть себе лише тому, що існує надзвичайна ситуація, знайдіть час, щоб утримуватись зволоженості, годування та відпочинку (на випадок, якщо це довгий багатоденний слоган).

Набір довідки

У вашій компанії майже напевно є багато талановитих людей, які мотивовані та здатні надати допомогу. Будьте обережні, щоб занадто багато людей бігало навколо і створювало проблеми один одному. Також будьте обережні до надокучливих людей, переводячи їх через "стрілянину". Знайдіть людей, які вже хочуть допомогти, змусьте їх працювати над цілеспрямованими завданнями та переконайтесь, що люди спілкуються один з одним.

Спілкуватися

Спілкування є критичним. Ніщо не так страшно, як невідоме. Коли люди не знають нічого, окрім того, що щось порушено, порожнє твердження про те, що це буде резервне копіювання через X годин, є лише м'яко заспокійливим (ще менш заспокійливим після того, як минули X години і все ще порушено). Напруга в грі може спрямовувати вас на надання занадто оптимістичних оцінок часу WAG, але це неправильний курс. Не кажіть просто, що ви працюєте над цим, не просто кажіть, що речі будуть виправлені X часом. Будьте відкриті, покажіть свій процес, докладно описуйте свій прогрес та ваші збої. Позначте проблему, процес її відстеження та свій план виправлення речей (хоч і не заглушуйте людей у ​​деталях). Покажіть, що проблема нерозв'язна, покажіть, що з часом все буде зроблено правильно, покажіть, що в цій проблемі є компетентні люди,


2
Дуже добре - я б також додав допомогу з набору персоналу, якщо це можливо
Брент

@Brent ах, так, я хотів це додати. Я ще не зрозумів правильного формулювання для цього розділу.
Клин

24

Не панікуйте.


4
Великими, доброзичливими червоними літерами.
Спойк

1
Я чув, що рожевий - це заспокійливий колір.
Софі Алперт

11
Візьміть рушник і залиште повідомлення, на якому написано "Так довго, і дякую за всю рибу".
Jauder Ho

1
Кажуть, таупе дуже заспокійливий
Гленн Славен

Це на півдорозі голосування!
Ендрю Грімм




8

Спершу перевірте основи, це здається нерозумним, але такі речі

  1. Чи включено живлення на сервері? (якщо ви розміщуєте веб-сайт)
  2. Чи не працює ваш хостинг-провайдер?

Я знаю, що багато часу можна витратити на пошук рішення, коли проблема знаходиться за течією


2
так - якщо все знижується - перевірте датацентр - та їхні форуми підтримки. Якщо в Інтернеті 30 людей, коли зазвичай 3 - це удар по фанату.
Алістер Бульман

6

Я пінг речі. Що відбувається після цього сильно залежить від результатів пінгу.


Використовували цей метод сьогодні. Багато комп'ютерів не вдалося надрукувати. Пробував на сервері баз даних ping, гаразд. Спробував на сервер ліцензійних принтерів пінг, відповіді немає. Результат = Помилка сервера!
шахраї

Приємний момент;) Я роблю це багато разів на день, перш ніж робити щось інше. Це насправді стільки економить час: Р
Марк-Андре Р.




2

Не намагайтеся ще нічого виправити.

Переконайтеся, що ви точно знаєте, яка реальна, основна проблема. Тепер приступаємо до виправлення речей. Якщо виправити кілька речей, уважно подумайте, які речі можна відкласти (принаймні, до наступного робочого дня!), А які зараз потрібно виправити.

Але найголовніше: як тільки все працює, запитайте, чому "все підірвалося"? Що ти збираєшся зробити, щоб це не повторилося? Чи існують які - небудь кроки , які зробили б рішення легше , якщо це дійсно станеться знову?


1

Повідомте людям, що ви на цьому, і, якщо можливо, дайте їм оцінку, коли все повернеться до норми.

Що стосується фактичного усунення несправностей, що, очевидно, залежить від того, що не так. Зазвичай я зберігаю колекцію сценаріїв "перевірити стан" для різних служб.


Чому це було зменшено? Мені це здається достовірним моментом.
Адріано Варолі П'яцца

Це відмінний момент. Запобігання - запорука уникнення великих катастроф;)
Марк-Андре Р.

1

Перевірте кабелі! Я втратив години, перевіряючи інші речі, коли проста заміна кабелю Eth0 вирішила б проблему ...


Насправді кабель не вмирає без причини. Якщо це не дуже складна стійка, обгортка чи будь-який інший метод захисту, і кожен може зіграти з нею, насправді так, кабель, ймовірно, зламається. Інакше причин немає.
Марк-Андре Р.

0

У вас повинні бути плани на випадок надзвичайних ситуацій.

Основні системи повинні бути розроблені з автоматичним відмовою або з документально підтвердженим та випробуваним планом відновлення.

Чим важливіша система, тим більшу стійкість потрібно вбудувати і тим більш автоматичною вона повинна бути.

Якщо у вас його немає, то це було не важливо, чи не так!


0

Переконайтесь, що резервна копія вашого резюме є безпечною :) Потім,

Знайдіть спільність. Що є спільним для всіх систем, на які постраждали.

Знайдіть, що змінилося. У вашій організації має бути офіційне управління змінами.

Де новий хлопець ... де начальник ...? Хтось із них взяв ярлик? (це лише швидке перезавантаження сервера, що це може зашкодити)



0

З твердження важко надати конкретний набір дій. Ваш перший крок базуватиметься на:

  • Де ти
  • Скільки інформації ви можете вичавити з людини, яка зв’язалася з вами
  • Які найближчі інструменти у вас є під рукою для усунення несправностей (або пошуку інформації)
  • Ваші знання про фізичні та логічні шляхи для вашої мережі
  • Скільки ви допомагаєте (частина команди? Чи самотня ніндзя?)

Очевидно, що вам потрібно зберігати спокій і пильнувати про проблему. Ваш досвід з усунення несправностей у мережі навчить вас, що це може бути щось тривіальне, наприклад:

  • Відключений кабель
  • Попередження технічного обслуговування (інша техніка "виправлення" речей)
  • Ваш генеральний директор надмірно реагує на те, що компанія повністю приречена після втрати бездротового підключення ноутбука через його / її мікрохвильовку сирну піцу.

Сказавши це, це також може бути щось серйозне в категоріях:

  • Фізичний транспорт (підключення)
  • Обладнання (маршрутизатор \ перемикач \ сервер)
  • Зберігання (недоступне \ скомпрометоване \ видалене)
  • Програмне забезпечення (сервіс> неправильно налаштований \ атакований \ офлайн)

Ключовим компонентом є те, наскільки Ви ЗНАЄТЕ про це. Який ваш орієнтир? (з якої точки зору "система вниз"?).



0

Почніть просто і працюйте до абсурду.

Влада?

Ethernet?

Запуск програми?

...

Інопланетяни?

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.