Автоматизоване тестування апаратних засобів серверів HP?


9

В рамках сервісів забезпечення ми запускаємо Insight Diagnostics HP для тестування обладнання. Це ручний процес. Чи є спосіб автоматизувати роботу діагностики Insight?

Існує програмне забезпечення hpdiags з опцією "-rd:" "Запустити діагностику всіх діагностичних пристроїв." З мого тестування це не робить багато (він просто читає SMART інформацію з дисків). Хтось мав більше удачі з цим?

Обладнання: BladeCenter c7000 з лезами HP ProLiant BL460c, DL360.

ОС: ESXi та Ubuntu.


2
Коротка відповідь полягає в тому, що я не намагаюся робити це у великих умовах. Моніторингу та бортової діагностики достатньо. Але чи можете ви надати деяку інформацію про використовувані вами моделі серверів? І, можливо, задіяні операційні системи.
ewwhite

Я оновив квиток із запитуваною інформацією.
Марк Вагнер

Ви встановлюєте специфічні для HP версії ESXi? Ви встановлюєте агенти управління HP в системах Ubuntu? Яке покоління (и) є серверами? G6? G7? Gen8?
ewwhite

Агенти управління HP встановлюються як на ESXi, так і на Ubuntu. Сервери є Gen8 і будуть Gen9.
Марк Вагнер

8
I updated the ticket with the requested info- Це змусило мене сміятися. Це не служба підтримки.
joeqwerty

Відповіді:


8

Отже, я поставлю ще одне питання:

Чому перед запуском потрібно запустити апаратну діагностику HP Insight на серверах?

У своєму коментарі вище я зазначив, що мало чого можна отримати, роблячи це превентивно у великих середовищах HP ProLiant. Я повинен уточнити свої думки з цього приводу ...

У порядку зменшення частоти давайте розглянемо типи проблем, з якими зазвичай стикаються:

  • Масив і диски для зберігання : RAID-контролер повідомляє ОС, журнали, SNMP, електронну пошту, ILO та запалює гарні індикатори, що свідчить про стан здоров'я.

  • ОЗУ : Процес POST виявить стан оперативної пам’яті, а також звітність системи в ОС, журнали, SNMP, електронну пошту, ILO та засвітить світлодіодний індикатор на передній панелі System Insight Display (SID) . Крім того, я не прихильник процесів спалювання оперативної пам'яті, оскільки виявлення помилок у цих системах вже надійне.

  • Теплові та вентилятори : Температура та швидкість роботи вентилятора регулюються МОП. У цих системах є 30+ датчиків температури , тому система охолодження є надзвичайно ефективною. Це все ще звітується в ОС, журналах, SNMP, електронній пошті та на SID.

  • Блок живлення : стан PSU повідомляється про ОС, журнали, SNMP, електронну пошту та на SID, а також про фактичний індикатор на фактичному блоці живлення.

  • Загальний стан здоров'я : Це легко оцінити з першого погляду за допомогою SID-дисплея, окрім світлодіодного індикатора внутрішнього здоров'я та зовнішнього здоров'я. Про це також повідомляється в журналах сервера, SNMP, електронній пошті та ILO.

введіть тут опис зображення

Я не можу придумати жодних умов, які були б знайдені перед розгортанням, про які не можна було б / не повідомити під час виконання або після встановлення ОС.

Цикл діагностики зазвичай нічого не знайде при запуску в системі без очевидних попередніх проблем. Це головним чином через те, що серверу необхідно виконати POST та завантажитися в утиліту або прошивку Intelligent Provisioning, щоб запустити утиліту.

Інакше кажучи, будь-який елемент, який би був серйозним "SPOF" для сервера, ймовірно, не дозволить системі запустити самодіагностику.

Найпоширеніші елементи відмов все ще досить надійні; диски повинні знаходитись у RAID та їх можна легко замінювати. Вентилятори та джерела живлення також доступні для гарячої заміни. Ваша оперативна пам’ять має порогові значення ECC, і для більшості платформ ProLiant є запасні варіанти в Інтернеті. За допомогою діагностики ви нічого не зможете зробити, щоб викликати збій у цих компонентах. Додайте факт, що ви використовуєте корпуси HP Blade C7000, у яких є внутрішні надлишки , і частота виходу з ладу повинна бути досить низькою.


Проблема полягає в тому, що (а) виявлено помилку після встановлення ОС (тобто сервер виробляється), (б) ремонт не можна проводити в Інтернеті або невдалий компонент є SPOF для сервера, і (c) сервер є SPOF, тоді у вас буде час простою (або негайно, або коли система буде знята на ремонт). Для запобігання висновку потрібно запобігти одній із умов. Я збирався (а) виявити несправність перед виробництвом. Я вдячний за вашу ретельність у деталізації здібностей, але я намагаюся запобігти необхідності повідомляти про них, в першу чергу, оскільки вони не трапляються.
Марк Вагнер

Шлейф діагностики HP, швидше за все, нічого не знайде, враховуючи, що для запуску діагностики серверу потрібно виконати POST і завантажитися в утиліту або Intelligent Provisioning. Найпоширеніші предмети несправності є досить надійними; диски, вентилятори та джерела живлення з можливістю гарячої заміни, оперативна пам'ять має пороги ECC. Ви нічого не зможете зробити, щоб викликати збій у цих компонентах.
ewwhite
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.