Минулого тижня один із сайтів мого клієнта отримав прямий удар блискавки (випадково у п’ятницю 13-го! ).
Я був віддалений від сайту, але працюючи з кимось на місці, я виявив дивну схему пошкоджень. Обидва інтернет-посилання були відключені, більшість серверів були недоступними. Значна частина пошкоджень відбулася в MDF , але один IDF -з'єднувач також втратив 90% портів на елементі стека комутаторів. Досить запасних портів комутаторів було доступно для перерозподілу кабелів в інших місцях та перепрограмування, але був час простою, поки ми гнали зачеплені пристрої.
Це була нова будівля / складське приміщення, і багато планувалося в проекті серверної кімнати. Основна серверна кімната працює з мережевим ДБЖ з подвійним перетворенням APC SmartUPS RT 8000VA , підтримуваним генератором. Відбувся належний розподіл електроенергії на все підключене обладнання. Встановлено офсетну реплікацію даних та резервне копіювання систем.
Загалом, збиток (про який я знаю) був:
- Помилка 48-портової лінійної картки на комутаторі шасі Cisco 4507R-E .
Помилка комутатора Cisco 2960 в 4-членному стеку.(На жаль ... вільний штабельний кабель)- Кілька лускатих портів на комутаторі Cisco 2960.
- Матеріальна плата HP ProLiant DL360 G7 та джерело живлення.
- Elfiq WAN балансир зв'язку.
- Один факсимільний модем Multitech.
- WiMax / Фіксований бездротовий Інтернет-антена та інжектор живлення.
- Численні пристрої, підключені до PoE (VoIP-телефони, точки доступу Cisco Aironet, IP-камери безпеки)
Більшість питань було пов'язано з втратою цілого леза комутатора в Cisco 4507R-E. Це містило частину мереж VMware NFS та висхідну лінію до брандмауера сайту. Хост VMWare не вдався, але HA подбав про відновлення колишнього мережевого зберігання VM. Мене змусили перезавантажити / живити цикл декількох пристроїв, щоб очистити стильні стани живлення. Тож часу на одужання було недовго, але мені цікаво, яких уроків слід засвоїти ...
- Які додаткові засоби захисту слід застосувати для захисту обладнання в майбутньому?
- Як слід підходити до гарантії та заміни? Cisco та HP замінюють товари за контрактом. Дорогий балансир посилань Elfiq WAN на своєму веб-сайті розмивається, що, в основному, сказано, "занадто погано, використовуйте мережевий захист від перенапруг ". (схоже, вони очікують такого типу відмови)
- Я досить довго працював в ІТ, щоб у минулому стикався з ураженням бурі, але з дуже обмеженим впливом; наприклад, дешевий мережевий інтерфейс ПК або знищення міні-комутаторів.
- Чи є щось інше, що я можу зробити, щоб виявити потенційно лускату техніку, або мені просто доводиться чекати на дивну поведінку на поверхні?
- Це все було лише невдачею чи чимось, що справді слід враховувати при відновленні аварій?
Маючи достатньо $$$, можна створити всілякі надлишки в середовищі, але який розумний баланс профілактичного / продуманого дизайну та ефективного використання ресурсів тут?