Ймовірність відмови шасі леза


48

У моїй організації ми думаємо про придбання блейд-серверів - замість стелажних серверів. Звичайно, постачальники технологій також звучать дуже приємно. Занепокоєння, яке я читаю дуже часто на різних форумах, полягає в тому, що існує теоретична можливість опускання шасі сервера - що, як наслідок, зніме всі лопаті вниз. Це пов'язано із спільною інфраструктурою.

Моя реакція на цю ймовірність полягала б у надмірності та двома шасі замість одного (дуже дорого, звичайно).

Деякі люди (в тому числі, наприклад, постачальники HP) намагаються переконати нас у тому, що шасі дуже навряд чи вийде з ладу через багато резервів (надмірне живлення тощо).

Ще одна стурбованість з мого боку полягає в тому, що якщо щось знизиться, можуть знадобитися запасні частини - що складно в нашому місці (Ефіопія).

Тож я б запитав у досвідчених адміністраторів, які керували блейд-сервером: який ваш досвід? Вони знизяться в цілому - і яка розумна спільна інфраструктура може провалитися?

Це питання може бути поширене на спільне зберігання. Ще раз я б сказав, що нам потрібні два сховища замість лише одного - і знову продавці кажуть, що ці речі настільки тверді, що жодних збоїв не очікується.

Ну - я навряд чи можу повірити, що така критична інфраструктура може бути дуже надійною без надмірності - але, можливо, ви можете мені сказати, чи є у вас успішні проекти на основі лез, які працюють без надмірності в її основних частинах (шасі, сховище ... )

На даний момент ми дивимося на HP - оскільки IBM виглядає набагато надто дорого.


3
Чудове запитання. Пізніше сьогодні я опублікую свою відповідь та деякі реальні сценарії невдач.
ewwhite

Ви подивилися, що Dell має у своїх C-серверах? наприклад, C6100 має 4 вузли в коробці 2U, що еквівалентно шасі леза 4 слотів. Замість одного 10U шасі леза ви могли б отримати п'ять 2U стелажних серверів. Більше немає жодної точки відмови, але ви втрачаєте переваги на задній план. Можливо, HP / IBM мають еквівалентний продукт.
jqa

Відповіді:


49

Існує низька ймовірність повного виходу з ладу шасі ...

Ви, швидше за все, зіткнетеся з проблемами на своєму об'єкті, перш ніж виправите повний збій корпусу леза.

Мій досвід передусім із корпусами клинків HP C7000 та HP C3000 . Я також керував рішеннями Blade для Dell та Supermicro. Постачальник має значення трохи. Але підсумовуючи, передача HP була зоряною, Dell - прекрасною, а Supermicro не вистачала якості, стійкості та була погано сконструйована. Я ніколи не відчував збоїв на стороні HP та Dell. У Supermicro були серйозні збої, що змусило нас відмовитися від платформи. Що стосується HP та Dells, я ніколи не стикався з повною несправністю шасі.

  • У мене були теплові події. Кондиціонер вийшов з ладу на спільному об'єкті, посилаючи температуру до 115 ° F / 46 ° C протягом 10 годин.
  • Стрибки напруги та збої в лінії: втрата однієї сторони живлення A / B. Індивідуальні збої живлення. У моїх настройках леза зазвичай шість джерел живлення, тому є достатньо попереджень і надмірності.
  • Окремі відмови сервера лез. Проблеми одного сервера не зачіпають інші в додатку.
  • Пожежа в шасі ...

Я бачив різноманітні середовища і мав перевагу встановити в ідеальних умовах центру обробки даних, а також у деяких більш грубих місцях. Що стосується HP C7000 та C3000, головне, що слід враховувати, це те, що шасі є повністю модульним. Компоненти розроблені для мінімізації впливу відмови компонентів, що впливає на весь блок.

Подумайте про це так ... Основна шасі C7000 складається з передньої, (пасивної) середньої площини та задньої частини. Конструкційний корпус просто тримає передній і задній компоненти разом і підтримує вагу системи. Майже кожну частину можна замінити ... повірте, я розібрав багатьох. Основні надмірності у вентиляторі / охолодженні, електроживленнях та управлінні мережами. Процесори управління ( HP Onboard Administrator ) можуть бути спарені для надмірності, проте сервери можуть працювати без них.

введіть тут опис зображення

Повністю заселений корпус - вид спереду. Шість джерел живлення в нижній частині запускають повну глибину шасі і підключаються до модульної збірної опорної планки в задній частині корпусу. Режими живлення можна налаштувати: наприклад, 3 + 3 або n + 1. Тож корпус, безумовно, має надмірність живлення. введіть тут опис зображення

Повністю заселений корпус - вид ззаду. Мережеві модулі Virtual Connect ззаду мають внутрішнє перехресне з'єднання, тож я можу втратити ту чи іншу сторону і все ще підтримувати мережеве підключення до серверів. Є шість джерел живлення з можливістю гарячої заміни та десять вентиляторів з гарячою заміною. введіть тут опис зображення

Порожній корпус - вид спереду. Зауважте, що в цій частині корпусу насправді немає нічого. Всі з'єднання передаються через модульну середню площину. введіть тут опис зображення

Збірку середньої площини знято. Зверніть увагу на шість джерел живлення для складання середньої площини в нижній частині. введіть тут опис зображення

Середня площинна збірка. Тут відбувається магія. Зверніть увагу на 16 окремих підключень нижньої площини: по одному для кожного із серверів лез. У мене окремі серверні розетки / відсіки виходили з ладу, не знищуючи весь корпус або не впливаючи на інші сервери. введіть тут опис зображення

Підсилювач (и) живлення 3ø одиниця нижче стандартного однофазного модуля. Я змінив розподіл електроенергії в моєму центрі обробки даних і просто поміняв опорну планку електроживлення, щоб вирішити новий метод подачі електроенергії введіть тут опис зображення

Пошкодження з'єднувача шасі. Цей конкретний корпус був скинутий під час складання, відірвавши штирі стрічкового з'єднувача. Це залишалось непоміченим цілими днями, внаслідок чого ходова ходова частина лопаті зачепила ВАЖК… введіть тут опис зображення

Ось обвуглені залишки кабелю стрічки середньої площини. Це контролювало деякий контроль температури та навколишнього середовища шасі. Блейд-сервери всередині продовжували працювати без інцидентів. Постраждалі частини були замінені у моє дозвілля під час запланованого простою, і все було добре. введіть тут опис зображення


+1 для C7000. Протягом останніх двох років ми працювали на одному корпусі, міцному, і ніколи не було проблем, апаратних засобів або продуктивності, на корпусі або лопатях.
tombull89

1
Погодьтеся з цим - у нас було різноманітне шасі від Dell, і вони були майже бездоганними. Я думаю, у нас був збій одного модуля контролера на одному шасі, і чистий результат цього полягає в тому, що ми не змогли дистанційно керувати самим шасі за той день, коли потрібна підтримка Dell, щоб доставити нам ще один контролер і інженера, щоб його підходити. Немає фактичного простою леза через поломку або операцію по заміні контролера.
Роб Моїр

1
Я маю згоду з @ewwhite. Я працював c7000 близько 8 років без зупинки без жодних відмов шасі. Ми навіть змусили їх працювати в 130'F протягом декількох годин через збій HVAC і нічого не вийшли з ладу. Найголовніше, що потрібно пам’ятати, - це розділити свої енергетичні навантаження на декілька панелей живлення та розділити мережу на кілька комутаторів, щоб усунути єдину точку відмови. Єдине, що нам коли-небудь було погано - це деякі жорсткі диски серверів, але це ви бачите і на традиційних серверах.
mrTomahawk

20

Я вже 8 років керую невеликою кількістю серверів блейд, і мені ще не вдається системна помилка, яка займала ряд лез в офлайн-режимі. Я підійшов дуже близько через проблеми, пов’язані з енергоспоживанням, але досі не стався збій у корпусі, який не можна було віднести до зовнішніх джерел.

Ваше зауваження про те, що шасі є єдиним пунктом відмови, є правильним, хоча вони в цей час створюють велику кількість надмірностей. У всіх системах лопаток, які я використовував, були паралельні подачі живлення на лопатки та безліч мережевих гнізд, що проходять окремими шляхами, а у випадку декількох шляхів волоконного каналу від леза до оптичних портів задньої стійки. Навіть інформаційна система шасі мала кілька шляхів.

Завдяки відповідній мережевій інженерії (надмірне використання NIC, MPIO для зберігання) події однієї проблеми цілком піддаються існуванню. За час роботи з цими системами у мене виникли такі проблеми, жодна з яких не зачіпала більше ніж одне лезо, якщо воно є:

  • Дві блоки живлення виходять з ладу в лезовій стійці. В інших 4 було достатньо надмірності для підтримки навантаження.
  • Втрата фази для 3-фазного джерела живлення. Ці запаси рідкісні в наші дні, але інші дві фази мали достатню потужність для підтримки навантаження.
  • Втрата міжконтурного циклу управління. Так було роками, перш ніж постачальник технік на іншому дзвінку помітив це.
  • Повністю втрачає циклі управління між шасі. Ми втратили доступ до консолі управління, але сервери продовжували працювати так, ніби нічого не було.
  • Хтось випадково перезавантажив задню планку мережі. Все, що в цьому шасі, використовувало надлишкові мікросхеми, тому не було перерви в обслуговуванні; весь трафік перемістився на інший план.

Точка TomTom щодо вартості дуже правдива. Щоб отримати повний співвідношення витрат, шасі леза повинні бути повністю завантажені і, швидше за все, не використовувати спеціальні речі, як перемикачі задньої стійки. Лезо-стелажі мають сенс у місцях, де вам справді потрібна щільність, оскільки ви обмежені простором


За винятком того, що архітектура SuperMicro Twin надає вам два комп’ютери на TU з двома розетками на комп'ютер - це схоже на те, що ви отримуєте з лопатками MOST. це, безумовно, дуже щільно;) Єдиною більш високою щільністю, про яку я знаю, є леза Dell, що використовують плющ-міст ..., але вони порівняно обмежені порівняно.
TomTom

@tomtom, але чи пропонує супермікро-близнюк зайвий psus? Ми просто побудували його, і я не бачив цього варіанту ніде. Ми купили холодний запасний псу, щоб мати під рукою про всяк випадок.
Джефф Етвуд

@JeffAtwood, я не бачив зайвих блоків живлення у 1U близнюків SuperMicro, але у їх лінійки 2U 4-вузлових близнюків є їх. Приклад .
Чарльз

Також, хто дбає. Майте запасний блок живлення в стійці. Заміна займає секунди.
TomTom

14

Це питання може бути поширене на спільне зберігання. Ще раз я б сказав, що нам потрібні два сховища замість лише одного - і знову продавці кажуть, що ці речі настільки тверді, що жодних збоїв не очікується.

Насправді ні. Ви стурбовані поки що мали сенс, це речення вводить їх у "читайте речі перед очима". HA з повною реплікацією - відома функція підприємства для одиниць зберігання. Справа в тому, що SAN (блок зберігання - набагато складніше, ніж шасі леза, що в кінці є просто "дурним металом". Все в шасі леза, крім деяких задніх планок, є замінним - всі модулі тощо є замінними, а окремі леза - Ніхто не каже, що центр леза сам по собі надає лопатям високу доступність.

Це сильно відрізняється від SAN, який повинен перебувати на 100% часу - у послідовному стані - тому у вас є такі речі, як реплікація тощо.

ЦЕ Сказали: дивіться свої номери. Я розглядаю можливість придбання лез вже деякий час, і вони НІКОЛИ НЕ РОБИТИ ФІНАНСОВУ СЕНСУ Шасі просто занадто дороге, а леза не дуже дешеві в порівнянні зі звичайними комп'ютерами. Я б запропонував розглянути архітектуру SuperMicro Twin як альтернативу.


Близнюки та близнюки-близнюки (2U 4-вузла) - чудова альтернатива лезам. Intel також робить лінійку серверів twin і twin-twin.
Чарльз

@Charles Ви знаєте, що ви живете близнюками? 8 машин по 4 U;)
TomTom

Я бачив його, але не мав можливості зіграти з ним або оцінити його.
Чарльз

4

Блейд-сервери, з якими я мав досвід, це IBM. Ці конкретні з них є абсолютно модульними і вбудовано багато надмірностей. Отже, якщо щось не вдасться, це стане одним із компонентів, таких як блок живлення або модульний комутатор і т. Д. Але знову ж таки, є надмірність навіть у цих.

З моменту участі в лезах IBM я раніше не бачив повної відмови.

З іншими брендами я підозрюю, що вони будуть побудовані аналогічно.
Було б непогано також поговорити з продавцем і багато читати.
Це велика інвестиція.


1

Поломки, що призводять до декількох відключень серверів в одному корпусі, порівнянні (за ймовірністю та причиною) з відмовами, що призводять до декількох відключень сервера в одній стійці.

Початкові налаштування, щоб мінімізувати поодинокі точки несправності (два окремих джерела живлення змінного струму, кожен з яких може обробляти все навантаження, працює на окремих джерелах живлення постійного струму, таким чином, що будь-яка половина може обробляти все навантаження; два окремих вкладення мережі, будь-яке з який може переносити всю очікувану навантаження тощо) і різниця між тим, що виймає всі лопаті в шасі або всі 2U-сервери в стійці, дуже мала.


1

Занепокоєння, яке я читаю дуже часто на різних форумах, полягає в тому, що існує теоретична можливість опускання шасі сервера - що, як наслідок, зніме всі лопаті вниз. Це пов'язано із спільною інфраструктурою.

Справді! Близько 5 років тому, керуючи двома корпусами лез п-класу HP Proliant, я кілька разів стикався з широкими проблемами шасі.

У мене лезові сервери не змогли увімкнутись, якщо вони були вимкнені (сервери не вимикалися часто, але стали для нас абсолютно реальною проблемою). У мене сервери раптово вимикалися і не вмикалися знову. Нарешті, у мене всі сервери відключились і не змогли знову ввімкнути.

Наскільки я пам’ятаю, в основному всі проблеми були віднесені до поганих планок живлення або планок контролера. У нас їх кілька разів замінювали, і неспецифічне, незавершене повідомлення, яке я отримав від техніків, - це те, що вони мали свою частку проблем із цим поколінням корпусів клинків.

Тоді я вирішив, що користь блейд-серверів просто не варта ризикувати, якщо я маю що сказати в майбутніх закупівлях.

Швидко вперед до мого наступного роботодавця, і мого нинішнього, з цього питання. У них вже працювали корпуси класу HP Proliant c-Class, тому моє відчуття тепла з лупами не мало значення. За 5 років, коли я мав справу з корпусами c-Class, я ніколи не відчував нічого подібного, як це робив з p-Class, де на мене не вийшов весь корпус. Вони бігали без великих проблем.

(За винятком часу, коли шторм надсилав дощ крізь дах, 4 історії, невеликий отвір у пломбі комп'ютерної кімнати, під кабелем та у шасі)


-1

Як у шасі DELL, так і в HP Blade відсутня надмірна середня площина. Саме тут IBM Bladecenter виявляється переможцем. Наскільки мені відомо, це єдине шасі леза, яке забезпечує надлишкову середню площину. Хоча HP пропонує фантастичний набір програмного забезпечення для управління лезами, ми придбали Bladecenter E для нашої компанії лише для того, щоб уникнути жодної точки виходу з ладу всього шасі.


Це дійсно те, про що мені розповідають маркетингові матеріали IBM; що вони є єдиним постачальником з повністю надлишковим рішенням леза. Однак після прочитання інших повідомлень у цій темі схоже, що рішення HP також містять це.
Martijn
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.