Оцінка пошкодження обладнання після удару блискавки - Чи слід було запланувати більше?


55

Минулого тижня один із сайтів мого клієнта отримав прямий удар блискавки (випадково у п’ятницю 13-го! ).

Я був віддалений від сайту, але працюючи з кимось на місці, я виявив дивну схему пошкоджень. Обидва інтернет-посилання були відключені, більшість серверів були недоступними. Значна частина пошкоджень відбулася в MDF , але один IDF -з'єднувач також втратив 90% портів на елементі стека комутаторів. Досить запасних портів комутаторів було доступно для перерозподілу кабелів в інших місцях та перепрограмування, але був час простою, поки ми гнали зачеплені пристрої.

Це була нова будівля / складське приміщення, і багато планувалося в проекті серверної кімнати. Основна серверна кімната працює з мережевим ДБЖ з подвійним перетворенням APC SmartUPS RT 8000VA , підтримуваним генератором. Відбувся належний розподіл електроенергії на все підключене обладнання. Встановлено офсетну реплікацію даних та резервне копіювання систем.

Загалом, збиток (про який я знаю) був:

  • Помилка 48-портової лінійної картки на комутаторі шасі Cisco 4507R-E .
  • Помилка комутатора Cisco 2960 в 4-членному стеку. (На жаль ... вільний штабельний кабель)
  • Кілька лускатих портів на комутаторі Cisco 2960.
  • Матеріальна плата HP ProLiant DL360 G7 та джерело живлення.
  • Elfiq WAN балансир зв'язку.
  • Один факсимільний модем Multitech.
  • WiMax / Фіксований бездротовий Інтернет-антена та інжектор живлення.
  • Численні пристрої, підключені до PoE (VoIP-телефони, точки доступу Cisco Aironet, IP-камери безпеки)

Більшість питань було пов'язано з втратою цілого леза комутатора в Cisco 4507R-E. Це містило частину мереж VMware NFS та висхідну лінію до брандмауера сайту. Хост VMWare не вдався, але HA подбав про відновлення колишнього мережевого зберігання VM. Мене змусили перезавантажити / живити цикл декількох пристроїв, щоб очистити стильні стани живлення. Тож часу на одужання було недовго, але мені цікаво, яких уроків слід засвоїти ...

  • Які додаткові засоби захисту слід застосувати для захисту обладнання в майбутньому?
  • Як слід підходити до гарантії та заміни? Cisco та HP замінюють товари за контрактом. Дорогий балансир посилань Elfiq WAN на своєму веб-сайті розмивається, що, в основному, сказано, "занадто погано, використовуйте мережевий захист від перенапруг ". (схоже, вони очікують такого типу відмови)
  • Я досить довго працював в ІТ, щоб у минулому стикався з ураженням бурі, але з дуже обмеженим впливом; наприклад, дешевий мережевий інтерфейс ПК або знищення міні-комутаторів.
  • Чи є щось інше, що я можу зробити, щоб виявити потенційно лускату техніку, або мені просто доводиться чекати на дивну поведінку на поверхні?
  • Це все було лише невдачею чи чимось, що справді слід враховувати при відновленні аварій?

Маючи достатньо $$$, можна створити всілякі надлишки в середовищі, але який розумний баланс профілактичного / продуманого дизайну та ефективного використання ресурсів тут?


3
Нижче наведено кілька хороших технічних відповідей, але, на мій досвід, ніщо не перевершує хороший страховий поліс. Буквально страховий поліс. Звичайно, це не допомагає уникнути проблеми, і це не перешкоджає клієнтам кричати на вас, але це допомагає замінити несправне обладнання, яке постачальник не торкнеться.
Марк Хендерсон

@MarkHenderson страхування переживає ... але минуло 6 тижнів, і деякі невеликі проблеми вирішуються вже зараз.
ewwhite

Відповіді:


23

Пару завдань тому один із центрів обробки даних для місця, в якому я працював, був на один поверх нижче дуже великої антени. Цей великий, тонкий металевий предмет був найвищою справою в районі, і його ударяли блискавки кожні 18 місяців. Сам центр обробки даних був побудований близько 1980 року, тому я б не назвав це найсучаснішим, але у них був довгий досвід боротьби з пошкодженням від блискавки (плати послідовних комірок доводилося щоразу замінювати , що є випробуванням, якщо комунікатори дошки є в системі, яка не мала нових деталей, виготовлених за 10 років).

Одне, що виховувалося старими руками, - це те, що цей хибний струм може знайти шлях навколо чого завгодно і може поширитися в загальній землі, як тільки він мостить. І може проникнути через прогалини. Блискавка - винятковий випадок, коли нормальні норми безпеки недостатньо хороші для запобігання дуг і заходять настільки, наскільки вона має енергію. І його багато. Якщо енергії вистачає, вона може дугою з сітки підвісної стелі (можливо, один з підвісних проводів підвішений від петлі з підключенням до будівельної балки в цементі) до верху 2-стоечної стійки і звідти в смаколики в мережі.

Як і хакери, ви можете зробити лише так багато. У всіх джерелах живлення на них є вимикачі, які стягують хибні напруги, але ваш низьковольтний мережевий механізм майже ніколи не робить і являє собою загальний шлях для надзвичайно енергійного струму до маршруту.


Виявлення потенційно лускатого набору - це те, що я вмію робити теоретично, але не в реальності. Напевно, найкраще поставити підозрювану передачу в зону і навмисно піднести температуру в приміщенні до найвищого кінця робочого діапазону і подивитися, що відбувається. Проведіть кілька тестів, завантажте чорт з нього. Залиште його там на пару днів. Додані термічні напруги через будь-які електричні пошкодження, що існували раніше, можуть знищити деякі бомби часу.

Це, безумовно, скоротило термін служби деяких ваших пристроїв, але з’ясувати, які з них важко. Схеми кондиціонування всередині блоків живлення можуть мати компрометовані компоненти і доставляти брудну енергію на сервер, що ви могли виявити лише за допомогою спеціалізованих пристроїв, призначених для перевірки джерел живлення.


Удари блискавки - це не те, що я вважав для ДР поза тим, що в установі з гігантським блискавковим стрижнем на даху є DC . Узагальнено, страйк - це одна з тих речей, які трапляються так рідко, що вони змішуються під "діянням Бога" і рухаються далі.

Але ... у вас зараз був такий. Звідси видно, що ваш заклад хоч раз мав правильні умови. Настав час отримати оцінку того, наскільки схильному вашому закладу надаються правильні умови та плануйте його відповідно. Якщо ви зараз думаєте лише про удари блискавок ДР, я вважаю, що це доречно.


Я вчора поїхав на оцінку. Брудний. Я відремонтував вимикач шасі і перевірив пошкодження деяких серверів. Чи є шанс, що антена WiMax / Fixed-Wireless на даху була точкою входу? Все на своєму шляху було постраждало:Antenna->PoE injector->WAN link balancer->Firewall->Dead Cisco 4507 linecard
ewwhite

1
Це звучить ... досить вірогідно.
mfinni

1
@ewwhite Це звучить дуже ймовірно. Шкода, коли той старий DC потрапив, був дуже схожий.
sysadmin1138

Я хотів би додати трохи мудрості до публікації sysadmin1138 (вибачте, що я поки що не коментую, не хотів, щоб це була відповідь) ... Заземлювальні шнури на шнурах живлення призначені для людської безпеки, а не ваших пристроїв. . У невеликих кабінетах; Я тримаю важливі машини від землі (деревна коробка, гумовий килимок) та незаземлені роз'єми / перехідники UPS-> Стіна. Я впевнений, що OSHA ненавидить це, але комп'ютери це люблять. Це також допомагає, коли ремінь знеструмлений і перезаряджений, оскільки ці сплески можуть вбити що завгодно. Я був у будівлі, коли дуже-дуже великий ДБЖ / інвертор Libert вибухнув і довелося пояснити їхнім
технікам

7

Я замислювався над цим питанням, оскільки нещодавно він був відредагований у верхній частині головної сторінки.

Я вільно зазначаю, що для таких людей, як sysadmin1138, яким доводиться стикатися з установками, які є дуже привабливими для великих ударів блискавки по даху постійного струму, планування конкретного надзвичайного випадку для великого удару має сенс. Але для більшості з нас це разова обставина, і я вважаю, що відповідь, більш загальна для всіх нас, може мати певну цінність.

Можна уявити всілякі загрози фільму ; Сценарії, які напевно можуть статися, беззаперечно знімуть ваші бізнес-операції, якби вони це зробили, але що немає підстав думати, що є підвищена ймовірність того, що це станеться. Ви знаєте щось таке; удар літака / блискавка / нафтобаза поблизу вибухає / будь-який інший правдоподібний сценарій, але на тлі ризику.

Кожен з них має конкретний план пом'якшення наслідків, який можна було б ввести в дію, але я б припустив, що - з точки зору мого положення вище - це не має сенсу для бізнесу . Як Шнайер намагається вказати на вищезгадану конкуренцію, тільки тому, що ви можете уявити, що щось жахливе відбувається, це не створює загрози, проти якої конкретні планування варто чи навіть бажано. Що має сенс для бізнесу, це загальнодокументований, добре задокументований, перевірений план безперервності бізнесу.

Слід запитати себе, які бізнес-витрати полягають у повній втраті сайту за різні періоди часу (наприклад, 24 години, 96 год, один тиждень, один місяць) і намагатися кількісно оцінити ймовірність кожного виникнення. Це повинен бути чесний аналіз вартості бізнесу, який купується всіма рівнями бізнесу. Я працював на сайті, де загальновизнаний показник часу простою становив 5,5 мільйонів фунтів / годину (а це було 20 років тому, коли п’ять мільйонів фунтів - це було багато грошей); якщо ця фігура, як правило, погодилася, зробила стільки рішень набагато простішими, тому що вони просто стали предметом простої математики.

Ваш бюджет - це прогнозований збиток, помножений на річний шанс цієї втрати; тепер подивіться, що ви можете зробити, щоб зменшити цю загрозу для бюджету.

У деяких випадках це буде працювати в повноцінному центрі обробки даних, з холодним обладнанням, готовим працювати 24x7. Це може означати невеликий центр обробки даних в режимі очікування, щоб взаємодія з клієнтами могла продовжуватись із дуже скороченою кількістю телефонних операторів та веб-сайтом-заповнювачем, який попереджав про порушення. Це може означати друге, надмірно налагоджене підключення до Інтернету на вашому головному сайті, лежачи холодно до необхідності. Це може означати, як зазначає Марк Хендерсон вище, страхування (але страхування, яке покриває збитки від бізнесу, а також фактичні витрати на відновлення); якщо ви зможете витратити свій бюджет BC на один аркуш паперу, який покриє всі ваші очікувані витрати у випадку катастрофи, можливо, має сенс придбати цей аркуш паперу - але не забувайте враховувати невдачу андеррайтерау ваш план бізнес-ризиків. Це може означати модернізацію контрактів на технічне обслуговування певного базового обладнання до надзвичайно дорогого обладнання на чотири години. Тільки ви можете знати, що має сенс для вашого бізнесу.

І як тільки у вас є цей план, вам дійсно потрібно його протестувати (за можливим винятком страхових). Я працював на майданчику, де у нас був повноцінний невеликий холодний майданчик, готовий перерізати до, за 45 хвилин їзди від нашого основного об'єкту. Коли у нас виникла проблема, яка закрила основну мережу, ми намагалися виправити її наживо, а не перерізати на холодний сайт, а потімфіксація серцевини та відрізання назад. Однією з причин того, що не вдалося перерізати, було те, що ми не мали уявлення про те, скільки часу знадобиться, щоб перерізати та скоротити. Тому ніхто насправді не знав, як довго потрібно дозволити працювати без перерізання, перш ніж приймати рішення про скорочення, тому - цілком зрозуміло - була рішучість вирішити перерізати. Голови котилися після того, як ми повернулися через Інтернет через 14 годин; не через перебої в роботі , але через те, що багато коштів було витрачено на споруду, щоб пом’якшити день-плюс відключення, яке було невикористане під час саме такого відключення.

На завершення зауважте, що зовнішні компоненти вашого бізнес-плану не гарантовано працюють. Ваше вище керівництво, можливо, сидить там і думає, " якщо ми поставимо сервери в хмару, вони просто завжди будуть там, і ми можемо звільнити сисадмінів ". Не так. Хмари можуть вийти з ладу, як і все інше; якщо ви передали критичні компоненти постачальнику, все, що ви зробили, - це усунути вашу здатність оцінювати шанси виходу з ладу цих компонентів. Угоди про домовлені угоди у нас все дуже добре, але якщо вони не підкріплені суттєвими штрафами за невиконання, вони не мають сенсу - навіщо ваш провайдер витрачати зайві гроші на те, щоб залишатись доступними, якщо він міг би просто уникнути грошей і повернути ваші послуги за період недоступність? Щоб бути надійними, ваші зобов’язання за угодою про надання послуг угод про надання послуг повинні застосовувати штрафні санкції, які орієнтуються на витрати, пов'язані з відключенням вашого бізнесу. Так, це значно збільшить витрати на аутсорсинг; і так, цього цілком можна очікувати.


2
Варто додати ... Цей сайт потрапив блискавками тричі з моменту оригінальної публікації. Причину було простежено в недостатньому / неіснуючому електричному заземленні в кількох районах об'єкта. Ми подали до суду на підрядників і страхування подбали про більшу частину замін.
ewwhite

2
Вибачте, ewwhite, моя умова про відкриття повинна була б чіткіше стосуватися і вас; на сайтах, де будь-який ризик є надповерховим, мені є сенс принаймні вважати пом'якшення, спеціально спрямоване на цей ризик . Моя відповідь була більшою мірою для всіх інших, хто може прочитати ваше запитання і почати думати: « ну, у мене немає і плану блискавки; можливо, я повинен ».
MadHatter

6

Це завжди зводиться до того, скільки ви хочете витратити. У мене немає достатньо глибоких знань, щоб довго про це говорити, але я був у великому аптечному центрі обробки даних, який здійснив удар блискавки і продув щось, що повинно було бути багаторазовим розрядником шипів (і було розроблено правильно , але було реалізовано неправильно, тому щось пройшло.)

Який був максимальний сплеск, який міг запобігти ваш АБЖ? Він повинен мати рейтинг. Мабуть, страйк був достатньо прямим, щоб перевищити це, або щось просочилося навколо каналу ДБЖ, як погана земля. Тож, можливо, ви переглянете проект енергосистеми, визначите, наскільки ймовірний черговий страйк, порівняєте вартість вірогідності простою X з порівнянням з реконструкцією, а може, і електрик дасть споруді гарне обстеження, щоб переконатися, що все заземлене належним чином - і кілька швидких читань показує що заземлення для безпеки / коду не настільки інтенсивне, як заземлення для запобігання ураження від блискавки.


Джерело ДБЖ здається нормальним. У багатьох частинах будівлі виникли проблеми, але основні технічні характеристики ДБЖ зазначають: "Повна полюсна багатофільтральна фільтрація шуму: 0,3% перенапруги IEEE від перенапруги: нульовий час затискання: відповідає UL 1449"
ewwhite

Добре, звучить непогано. Тоді воно, ймовірно, прокрадеться за допомогою інших засобів, якщо харчування вашого живлення є твердим.
mfinni
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.