Щось палає в серверній кімнаті; як я можу швидко визначити, що це таке?


454

Днями ми помічаємо страшний палючий запах, що виходить із серверної кімнати. Якщо коротко розповісти, він виявився одним із модулів акумулятора, який згорів у блоці ДБЖ, але пройшло багато годин, перш ніж ми змогли це зрозуміти. Основна причина, яку нам вдалося зрозуміти, це те, що на дисплеї ДБЖ нарешті було показано, що модуль потрібно замінити.

Тут виникла проблема: вся кімната наповнилася запахом. Зробити тест на нюх було дуже складно, тому що запах проник у все (не кажучи вже про це, ми змусили нас головою). Ми майже помилково зняли наш сервер виробничої бази даних, бо саме там запах був найсильнішим. Життя виявилося нормальним (темпи процесора показали 60 градусів С, а швидкість вентилятора нормально), але ми не були впевнені. Так вийшло, що згорілий модуль акумулятора був приблизно такої ж висоти, що і сервер на стійці, і лише 3 фути. Якби це було справжньою надзвичайною ситуацією, ми б невдало провалилися.

Реально, шанси на те, що фактичне обладнання для сервера згоряє, є досить рідкісним явищем, і більшу частину часу ми будемо шукати винуватця UPS. Але з кількома стелажами з кількома одиницями обладнання, це може швидко стати грою на здогадки. Як можна швидко і точно визначити, який предмет фактично згоряє? Я усвідомлюю, що це питання сильно залежить від змінних умов середовища, таких як розміри приміщення, вентиляція, місце розташування тощо, але будь-який внесок буде вдячний.


34
@DeerHunter Добре дякую, боже, це був кінець дня, і людей було дуже мало. Дякую за вашу конструктивну критику, і я обов'язково повідомлю мого керівника, яким життям вона ризикувала, вирішивши підтримувати систему.
Чад Гаррісон

12
@hydroparadise - хтось повинен мати кишки сказати " СТОП. Ми не робимо цю справу правильно". Якщо ваш керівник не розуміє правил безпеки, то насправді не можна зробити, окрім вирощування хребта та не поклоніться позиву вирізати кути.
Мисливець на олень

112
@DeerHunter: Яка була б відповідна відповідь, коли ти відчуєш, що щось запалює? Немає видимого диму, просто запах. Ви вимикаєте весь центр обробки даних, випускаєте його на кілька годин, а потім включаєте сервери по черзі, поки запах не повернеться? Невеликий 25 стійок даних може мати 1000 серверів для перевірки, це багато часу простою для "запаху" - ОП не повідомило про видимий дим чи вогонь.
Джонні

24
@Johnny - Цитуючи ОП: "вся кімната була заповнена запахом. Робити тест на нюх було дуже складно, оскільки запах все проник у нас (не кажучи вже про те, що він змусив нас головою)" Відповідаючи на ваше запитання - так, ви повинні провітрюйте приміщення, і вирішуйте проблеми систематично . Все інше є безвідповідальним.
Мисливець на олень

14
Отож, чи критичні щодо поводження із запахом ОП припускають, що немає різниці в терміновості між запахом і вогнем / димом? Якщо ви відчуваєте, як у вашому домі щось запалене, але не бачите диму і не чуєте тривоги, ви кинетесь з вами та вашою родиною з дому та дзвоните 911?
trpt4him

Відповіді:


383

Загальним є думка, що відповідь на ваше запитання складається з двох частин:

Як ми можемо знайти джерело кумедного запаху?

Ви дуже добре прибили "Як":

  • "Тест на снайф"
  • Шукайте видимий дим / серпанок
  • Пройдіться по кімнаті тепловою (ІЧ-камерою), щоб знайти гарячі місця
  • Перевірте сповіщення та панелі пристроїв на наявність сигналів

Ви можете покращити свої шанси швидко знайти проблему кількома способами - покращений моніторинг часто найпростіший. Деякі запитання:

  • Чи отримуєте ви температуру та інші сповіщення про здоров'я від свого обладнання?
  • Чи повідомляють ваші системи ДБЖ про несправності у вашій системі моніторингу?
  • Чи отримуєте ви тривожні сигнали тривоги від вашого розподільчого обладнання?
  • Чи повідомляються кімнатні детектори диму до системи моніторингу? (а вони можуть? )

Коли нам слід усунути неполадки порівняно з натисканням на великий червоний перемикач?

Це цікавіше питання.
Натискання великого червоного перемикача може поспішати вашій компанії величезних грошей: поспішні випуски агентів можуть становити десятки тисяч доларів, а витрати на відключення / відновлення після аварійного відключення електроенергії (EPO, "скидання приміщення") ) може бути руйнівним.
Ви не хочете скидати датацентр, тому що конденсатор в джерелі живлення сплив і викликав запах приміщення.

І навпаки, пожежа в серверній кімнаті може коштувати вашій компанії її даних / обладнання, а ще важливіше життя вашого персоналу.
Усунення несправностей "того смішного запаху горіння" ніколи не повинно мати перевагу над безпекою , тому важливо мати чіткі правила щодо усунення неполадок "до вогню".

Наступні вказівки - це мої особисті обмеження, які я застосовую за відсутності (або на додаток до) будь-якої іншої чітко визначеної процедури / правил - вони мені добре служили, і вони можуть вам допомогти, але вони так само легко можуть мене вбити або звільнено завтра, тому застосовуйте їх на свій страх і ризик.

  1. Якщо ви бачите дим чи вогонь, киньте приміщення.
    Це повинно бути зрозуміло, але скажемо все одно: якщо є активна пожежа (або дим, що свідчить про те, що скоро буде), ви евакуюєте приміщення, відключіть живлення та розрядіть вогонь система придушення.
    Можуть існувати винятки (проявляти деякий здоровий глузд), але це майже завжди правильна дія.

  2. Якщо ви переходите до усунення несправностей, завжди залучайте хоча б ще одну особу.
    Це з двох причин. По-перше, вам не хочеться блукати в центрі обробки даних, і раптом у вас стоїть стійка в тому ряду, по якому ви йдете вниз, і ніхто не знає, що ви там. По-друге, інша людина - це ваша перевірка здорового розгляду проблем щодо усунення несправностей проти виходу з кімнати, і якщо вам потрібно зателефонувати, щоб перейти на великий червоний вимикач, ви маєте перевагу, щоб друга людина погодилася з рішенням (допомагає уникнути аспектів, що обмежують кар'єру такого рішення, якщо хтось пізніше його поставить під сумнів).

  3. Виконуйте обережні заходи безпеки під час усунення несправностей
    Переконайтеся, що у вас завжди є шлях втечі (відкритий кінець ряду та чіткий шлях до виходу).
    Тримайте когось, де перебуває в приміщенні EPO / пожежогасіння.
    Несіть із собою вогнегасник (Халон чи інше чисте засіб, будь ласка).
    Запам’ятайте правило №1 вище.
    Коли ви сумніваєтесь, залиште приміщення . Подбайте про своє дихання: використовуйте респіратор або кисневу маску. Це може зберегти ваше здоров'я у разі хімічного пожежі.

  4. Встановіть ліміт і дотримуйтесь його
    Точніше, встановіть два межі:

    • Умова («Наскільки гірше я дозволю це отримати?») Та
    • Час ("Як довго я намагатимусь знайти проблему до її надто ризикової?").

    Обмеження, задані також можуть бути використані , щоб ваша команда почати процедуру завершення роботи ураженої області, тому , коли ви DO тягнути влада ви не збій купи активних машин, і ваш час відновлення буде набагато коротше, але пам'ятайте , що якщо впорядковане вимкнення триватиме занадто довго, можливо, вам доведеться дозволити аварії декількох систем в ім’я безпеки.

  5. Довіряйте своїй кишці
    Якщо ви в будь-який час турбуєтесь про безпеку, зателефонуйте з усунення несправностей та очистіть приміщення.
    Ви можете або не можете кинути кімнату, виходячи з відчуття кишки, але перегрупуватися поза кімнатою в (відносній) безпеці доцільно.

Якщо немає небезпечної небезпеки, ви можете обрати в місцеву пожежну частину перед тим, як вживати будь-які різкі дії, такі як EPO або випуск чистих агентів. (Вони можуть сказати вам зробити це так чи інакше. Їх мандат - захист людей, а потім майно, але вони, очевидно, експерти в справах пожеж, тому ви повинні робити те, що вони кажуть!)

Ми вирішили це в коментарях, але це може бути також узагальнено у відповіді - @DeerHunter, @Chris, @Sirex та багато інших сприяли обговоренню


30
В університеті я пішов, щоб встановити новий центр обробки даних. Вони впровадили надзвичайно складну систему EPO / Fire Suppression. Обладнання, яке воно захищало, становило мільйони доларів, і воно також використовувалося для досліджень мільйонів доларів для медичної частини школи. Очевидно, якщо це було потрібно, червона кнопка буде вдарена, але, якщо говорити, якщо червона кнопка була натиснута, просто скидання було близько 200 000 доларів США. Долари платників податків, ти можеш впевнитись, що, як пекло, став би випадок, що якби перемикач потрапив, коли його не потрібно, хлопець, який його вдарив, більше не матиме роботи.
Райан

28
+1 для системи приятелів. Я думаю, що це трохи гайки, що там є постійні жителі, які використовують ЕРО, щоб також скинути пожежу. Існує безліч ситуацій, коли ви хочете зробити EPO, не бажаючи скидати галотрон у всьому хлопця, який зазнав електричного струму. EPO - це серйозна угода, але це не "знищити все, що стосується DC DC", або принаймні не повинно бути. Хлопці в окрузі Колумбія повинні сподіватися зрозуміти велику червону кнопку та систему гасіння пожежі досить добре, щоб зважити ефект натискання на кнопку. EPO може фактично зупинити пожежу та зберегти постійний струм, наприклад.
chris

13
Важливе зауваження, про яке я не бачив, - це те, що більшість часу, коли щось виходить з ладу, щоб видавати запах пекучого, все, що палає, згасне, перш ніж буде виявлений запах, і не спалюючи нічого поза пошкодженим обладнанням. Іноді обладнання буде продовжувати тліти до тих пір, поки воно не матиме потужність, але якщо людина бачить дим, слід мати можливість ідентифікувати обладнання, відключити живлення лише до нього і побачити, чи скоро дим очищається чи постійно погіршується.
supercat

1
@ryan: Якщо натискання на велику червону кнопку коштує стільки доларів платника податків, відповідальна особа сподівається розробити план вирішення незначних інцидентів з місцевою пожежною службою, яка не передбачає загрози працівникам.
Крістоф

3
@ryan Це нагадує мені телевізійний репортаж про ЦЕРН, який я нещодавно бачив: Колектив камери та репортер справді потрапили до кишок системи, і одного разу один із хлопців з камери ледве не відключив червоний кнопку аварійного відключення своїм рюкзаком - надання серцевих нападів персоналу, який думає про перезавантаження,
Хаген фон Ейтцен

183

Камера теплового візуалізації може зробити цю роботу, і ви зможете визначити, де перегрів. Такий пристрій дозволить вам визначити також походження пожежі чи горіння у приміщенні, що заповнює дим.


30
Теплові камери сьогодні працюють під великим часом, і якщо у вас велика серверна кімната, вони є інструментом, який варто мати.
rackandboneman

16
TIC не так дорогий і дуже корисний у центрі обробки даних або у великій серверній кімнаті. Не тільки у випадку таких проблем, як перегріті кабелі чи обладнання, але також як профілактичне або раннє виявлення випуску, оптимізація охолодження, потік повітря тощо
ddalcero

39
Лазерний пістолет температури, як цей , є дешевою альтернативою
MichaelHouse

4
@mfinni Електрики також часто мають теплові камери. (Технічна перевірка зображень наших панелей розподілу електроенергії щороку або після будь-яких великих робіт з електропроводки була стандартною, коли я працював у хостинговій компанії).
voretaq7

3
Теплова камера має дуже великі обмеження: 1. Поле зору може перешкоджати використанню 2. Навколишнє середовище може бути дуже щільним. [Великі пожежі будуть помічені, але не малі] 3. Для визначення порогу
знадобиться

138

Ви нічого не робите з того, що було сказано. Ви залишаєте небезпечне середовище, тому що все, що прокачується через всю кімнату, небезпечне для вашого здоров'я і може справді зіпсувати ваші легені. Якщо в приміщенні є гострий запах чогось палаючого, чого ви не можете знайти, зателефонуйте (911 | 112 | 999 | будь-який номер екстреної допомоги, який відповідає вашій юрисдикції) і дайте пожежі (компанія | відділ | бригада) розібратися в цьому, поки вони на пляшковому повітрі.

Комп'ютерні деталі містять у корпусах всілякі цікаві хімічні речовини, включаючи ртуть , кадмій , свинець та багато пластику. Зауважте, що всі посилання, які я зробив, пояснюють, як експозиція низького рівня може спричинити тривалі збитки або навіть швидку смерть. Це середовище, яке може бути негайно небезпечним для життя та здоров’я .

... тож справді, якщо щось горить, не витрачайте години на нюхання парів. Якщо ви не можете ідентифікувати його і негайно діяти, щоб його містити, вийдіть.


18
Слід додати, що якби це сталося в "справжньому" центрі обробки даних з детекторами диму, інтегрованими з кондиціонером та встановленою системою гасіння, пожежна сигналізація вимкнула б, а приміщення запечатано і залито аргоном або СО2 автоматично, не могло бути навіть думки про біг та обнюхування обладнання.
the wabbit

8
@ syneticon-dj Це залежить від типу встановлених детекторів. Іонізаційні детектори, можливо, спричинили гасіння пожежі, але я працював у (і зараз розміщую обладнання у) місцях, де є оптичні детектори диму - для них потрібен видимий дим (або принаймні хороший серпанок) перед тим, як відключитись.
voretaq7

3
Я б хотів, щоб я міг підтримати це ще більше. загрожуючи суперечливістю, "отримати професійного" пожежника - єдиний шлях вперед.
user619714

19
Так, як колишній пожежний, я б не залишився там без свого спорядження. Навіть коли пожежа згасає, ми навчаємося залишатись забитими через отруйні гази. Якби я назвав плюси, ви також повинні!
Джефф Ферланд

1
@Michael конструкції, які я бачив, не покладалися на стельові детектори диму, але мали фотоелектричні детектори в потоці зворотного повітря. Єдиний раз, коли я бачив його спрацювання, був під час тестування, коли система аргоніту була відірвана, а джерело диму було розміщено в одному з шаф. Це спрацювало так, як я би очікував, що це спрацює. На щастя, мені ніколи не доводилося стикатися з справжніми пожежами.
the wabbit

76

Якщо ви мали належний моніторинг на ДБЖ (як правило, за допомогою SNMP), сам пристрій повинен був задзвонити дзвіночки на вашій системі моніторингу. Якщо цього не сталося, поговоріть про це з продавцем. Він або не працює, або система моніторингу неправильно налаштована.

Якщо щось активне насправді горить, слід якось скаржитися на це або просто бути відключеним від мережі, що також повинно викликати тривогу.

Якщо це щось на зразок фактичної силової шини, що горить через ізоляцію, і вона не знаходиться на розумному PDU, тоді ми повернемося до вашого оригінального запитання, яке є "як я можу знайти річ, що горить?" І я думаю, що відповідна відповідь - "Потрапте на ЕПВ і зрозумійте це. Ваші виробничі сервери, мабуть, недостатньо важливі, щоб ризикувати життям".


13
Що означає EPO?
Midhat

39
Аварійне вимкнення живлення ... велика червона кнопка, яка зменшує всю потужність у приміщенні. Переважно для того, коли його горять.
Грант

11
Підкреслив +1, проголосував би 1 000. Натисніть кнопку, евакуюйте, зачекайте, розібрайте речі пізніше. Як правило, ведення бізнесу при наявності вогню та диму (і намагання усунути будь-які проблеми) - одна з найгірших помилок, яку може зробити інженер.
Мисливець на олень

36
@chris Мені доводиться з повагою не погоджуватися щодо "EPO, Leave, Wait" - Активізація EPO та / або чистого випуску агента для приміщення, наповненого виробничими механізмами, дуже часто може бути тим, що ми любимо називати рухом кар'єрного обмеження . Якщо немає активного, видимого вогню чи сліду диму, що надходить з якогось обладнання, яке здійснює початкове розслідування, зазвичай це Правильна річ. Звичайно, ви повинні бути готові вийти з кімнати, натискаючи на відповідні червоні кнопки в будь-який момент вашого розслідування.
voretaq7

13
Ймовірно, навіть досконала система моніторингу не впіймала б це до того ж моменту, коли панель ДБЖ сказала «Замінити модуль» - тому, напевно, ви хочете, щоб ваша система моніторингу донесла такі речі до вашої уваги. Наступного разу модуль може вийти з ладу о 19:30 у п’ятницю, коли нікого не буде, і моніторинговий сповіщення змусить вас повернутися та вирішити проблему, перш ніж вона перетвориться на повноцінне надзвичайне становище. Якщо ви можете зав'язати моніторинг у своєму FACP, то ваші датчики диму та / або тепла можуть навіть попереджати про спалення ізоляції від силових рейок тощо.
voretaq7

43

Це одна з тих ситуацій, коли

XKCD Die Hard sysadmin

не застосовується, вам слід зателефонувати професіоналу

Пожежний у захисному спорядженні

Все інше просто нерозумно.


це, очевидно, найкраща відповідь. :)
Громадянин

@Navin Ні, ви не хлопці з пожежної частини цього не робите.
користувач619714

40

Як хтось, чия колишня кар’єра була електронною технікою, я маю досвід "запальних палень", які не були пожежами. Це не рідкість.

Я б не закрив центр обробки даних про запах. Дим - інша справа, щось справді палає (як правило, але танталовий конденсатор розміром з горошину також може заповнити приміщення димом). Дивно, скільки запах смаженого компонента в блоці живлення може справити.

Термометр TIC або ІЧ (корисний інструмент і набагато дешевший, ніж TIC) не обов'язково показуватиме його, оскільки компонент взагалі не виробляє багато тепла, і він знаходиться всередині корпусу. Але перевірте, чи не працюють пристрої, використовуйте засоби моніторингу. Для такого запаху, то 95% часу це буде джерело живлення, що впливає на продуктивність всього пристрою.


3
+1, загальмовані джерела живлення є загальними. У більшості центрів обробки даних з високою швидкістю повітря дим швидко видувається, і важко знайти джерело запаху. Однак у невеликій кімнаті запах може бути досить поганим і може швидко поширюватися по всій кімнаті.
Стефан Ласєвський

19

Мені подобаються відповіді на ІЧ-зображення або термометр, але можливо, що також допоможе, це справжній "детектор запаху". Адже те, що викликало вашу обережність, був запах. Дим, тепло, ІЧ тощо - це сурогати.

Що - щось на зразок цього: від Шиньєя . Я особисто ніколи їх не використовував і навіть не бачив, щоб вони використовувались у центрі обробки даних. Але принаймні теоретично це повинен бути акуратний інструмент. Якщо у вас є гроші, щоб витратити на цю штучку, яка є.

http://www.sca-shinyei.com/odormeter або http://www.intopsys.com/products/cyranose.html?gclid=CNXXzOrLs7YCFUws6wodViYApQ

Це дає вам запах запаху, а також класифікацію. Таким чином, орієнтування на запах повинно бути можливим. Чорт у деталях, звичайно. Наскільки він чутливий, маскуючи хибний запах фону тощо.

Однією з переваг перед чисто вимірюваними температурами є те, що часто неприємний запах виникає в набагато більш ранній точці або порозі. Або якщо перегрітий компонент прихований тілом / прихованою проводкою і т. Д., То легше виявити втечу молекул, ніж гарячу точку прямолінійного огляду.

Інша ситуація - неприємний запах. Раніше у нас витік контур охолодження, і запахи теплоносія теж були своєрідними. Я навіть не буду вникати в давньоруський випадок мертвого гризуна в протоках. :)

Я був здивований, наскільки чутливі ці датчики. Явно H2S / меркаптани тощо (звичайні винуватці) виявляються на рівні субпроміле.

введіть тут опис зображення

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.