Апаратний RAID-контролер кеш-пам'ять частота / термін служби?


14

Я перебуваю в середовищі, яке містить багато серверів Supermicro, оснащених апаратними RAID-контролерами Adaptec та LSI MegaRAID . Ці контролери містять кешовані модулі, керовані акумулятором, щоб підвищити продуктивність запису та захистити дані під час передачі.

Часті проблеми з підтримкою - вихід з ладу батареї RAID-контролера. Це зрушує масив від зворотного запису для запису через режим. Очевидно негативний вплив на продуктивність, оскільки система працює із зниженою швидкістю запису. Це зберігається, поки не буде встановлено вікно простою для вимкнення системи та заміни акумулятора.

Це дуже рутинна операція для нас; майже щотижня на декількох тисячах фізичних серверів ... У нас навіть є зарядні станції для підготовки замінних батарей, щоб їх можна було замінити без циклу зарядки.

Можливо, мене зіпсувала довга історія із серверами HP ProLiant та контролерами RAID Smart Array , але системи HP зазвичай мали батарею 4-6 років. Вони врешті-решт виключили використання батарейок RAID близько 2009 року. Їх замінили модулі пам'яті, що підтримуються суперконденсатором (кеш-пам'ять запису, що підтримується спалахом, або FBWC) і не потребують заміни, утилізації або тривалого початкового циклу зарядки.

Оскільки я бачу збої акумулятора в контролері Adaptec та LSI, які іноді трапляються в системах, які працюють менше 12 місяців, мені цікаво, чи це часто зустрічається в інших середовищах.

Якщо це звичайне явище, як інші великі серверні середовища обробляють це?

  • Які-небудь поради чи підказки щодо роботи із заміною батареї RAID?
  • Чи є якісь параметри конфігурації, які можуть допомогти?
  • Наскільки руйнівним це є для операцій у вашому оточенні?
  • Чи можуть поганий охолодження шасі і температура бути фактором?
  • Ми щось робимо не так?
  • Контролери Dell PERC виробляються LSI. Чи мають середовищі Dell такі ж короткі терміни експлуатації акумулятора?

Література про товари LSI, в якій викладено акумулятор нового покоління, який може працювати довше, ніж 1 рік. введіть тут опис зображення

Сервер HP ProLiant DL585 G2 з режимом 1000+ днів роботи та радісним батареєю RAID ...

# uptime 
 05:38:08 up 1031 days, 44 min, 31 users,  load average: 0.49, 0.64, 0.99

# hpacucli
   Cache Board Present: True
   Cache Status: OK
   Accelerator Ratio: 50% Read / 50% Write
   Total Cache Size: 512 MB
   Battery Pack Count: 1
   Battery Status: OK

2
Лише підказка: Останнє покоління контролерів Adaptec також використовує суперзаглушки / спалах замість батарей.
Свен

О, я знаю , що всі виробники мають SuperCap на основі рішень в даний час , але з урахуванням існуючої установкою слід, це важко зробити широке зміна всієї інфраструктури.
ewwhite

2
Я ніколи цього не робив (можливо, тому, що це звучить як погана ідея, і у мене не було такої частоти, як у вас), але ви можете спробувати замінити батарею RAID на тестовому сервері, поки він увімкнено. Висуньте його, зніміть кришку, відключіть поганий акумулятор і підключіть хороший, потім назад у стійку ... Якщо все піде добре, у вас новий процес заміни акумулятора, який не передбачає простоїв.
серпня

2
@August Uhm, оскільки ризиковані процедури проходять, це звучить досить високо у списку "OMG, ДЕ МОЄ ДАНІ ГО".
День

2
Так, це точно ... Я згоден, це звучить як жахлива ідея, але, враховуючи ситуацію та вимоги до простоїв, можливо, варто спробувати на тестовому сервері (або тридцяти тестових серверах ...), щоб побачити, чи це можливо. Що є ще одним варіантом, крім того, як переробляти інфраструктуру, щоб не покладатися на окремі батареї RAID на тисячах серверів?
серпня

Відповіді:


9

Я підозрюю, що ваші Supermicros зламані так чи інакше - можливо, батареї перегріваються. Більшість останніх LSI повідомили б про температуру через MegaCLI - можливо, ви захочете відстежувати це значення на серверах, які потребують заміни.

root@host:~/SOLARIS# ./MegaCli -AdpBbuCmd -GetBbuStatus -aALL

BBU status for Adapter: 0

BatteryType: BBU
[...]
Temperature: 41 C

Я бачив пару систем Dell і Fujitsu з контролерами LSI BBU, жодна з них не проводила щорічну заміну акумуляторних батарей (за винятком того, що ви накрутили пакет глибоким розрядом). Типовий час життя становить приблизно від 3 до 5 років.


4
Я додам, що, якщо система НАДЕЖДА не дозволить гарячої заміни RAID BBU, я б не робив цього. Я ніколи не бачив, щоб система вимагала щорічної заміни батареї RAID кеша. 3-5 років - типовий термін служби.
voretaq7

Я думаю, ти це отримав!
ewwhite

1

Середній час роботи акумулятора повинен бути 3-5 років. І не забувайте, що FBWC на ​​базі флеш також не вдається. Я не знаю, чому / як, але ми регулярно їх замінювали феєрично на наших серверах HP. Я повинен тривати довше батареї, але я не маю статистики з наших окремих серверів.

Стандартним способом запобігання наслідків несправного навчання акумулятора та акумулятора є наявність декількох батарей. Ось так воно має сховище HP (як HP EVA). У вас є 2 батареї з гарячою штепсельною вилкою, і хоча одна заряджена або замінена, контролер працює з рештою. Я не впевнений, чи можливо декілька батарей підключено до SmartArray, але hpacucli diagвихід підказує, що його слід підтримувати:

Battery 1 firmware is up to date.
Battery 2 not present.
Battery 3 not present.

Battery Status:    Battery 1      Battery 2      Battery 3
---------------    ---------      ---------      ---------
Present:              YES             NO             NO
Responding:           YES            N/A            N/A
PIC Revision:          52              .              .         
Status:              0x80              .              .         
Extra Status:        0x01              .              .         
   Enabled:         FALSE              .              .         
   Charging:        FALSE              .              .         
   Good:             TRUE              .              .         
   Open:            FALSE              .              .         
   Shorted:         FALSE              .              .         
   Sample Err:      FALSE              .              .         
Control:             0x00              .              .         
Load Current: (0x70) 24.6mA            .              .    
   Per Memory Chip:  4920uA            .              .         
Voltage:      (0xae) 5640mV            .              .         
Capacity:             100%             .              .         
Depletion count:     0x00              .              .         

1

Мій досвід роботи з версіями IBM на платформах LSI протягом декількох сотень встановлень полягає в тому, що середній акумулятор ледь складає 2 роки, а суперкап не є кращим, деякі з яких можна виправити за допомогою оновлення мікропрограмного забезпечення, але LSI просто не мають цього правильно. У мене в перші 2 роки було близько 75% відмов суперкап.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.