Отже, я поставлю ще одне питання:
Чому перед запуском потрібно запустити апаратну діагностику HP Insight на серверах?
У своєму коментарі вище я зазначив, що мало чого можна отримати, роблячи це превентивно у великих середовищах HP ProLiant. Я повинен уточнити свої думки з цього приводу ...
У порядку зменшення частоти давайте розглянемо типи проблем, з якими зазвичай стикаються:
Масив і диски для зберігання : RAID-контролер повідомляє ОС, журнали, SNMP, електронну пошту, ILO та запалює гарні індикатори, що свідчить про стан здоров'я.
ОЗУ : Процес POST виявить стан оперативної пам’яті, а також звітність системи в ОС, журнали, SNMP, електронну пошту, ILO та засвітить світлодіодний індикатор на передній панелі System Insight Display (SID) . Крім того, я не прихильник процесів спалювання оперативної пам'яті, оскільки виявлення помилок у цих системах вже надійне.
Теплові та вентилятори : Температура та швидкість роботи вентилятора регулюються МОП. У цих системах є 30+ датчиків температури , тому система охолодження є надзвичайно ефективною. Це все ще звітується в ОС, журналах, SNMP, електронній пошті та на SID.
Блок живлення : стан PSU повідомляється про ОС, журнали, SNMP, електронну пошту та на SID, а також про фактичний індикатор на фактичному блоці живлення.
Загальний стан здоров'я : Це легко оцінити з першого погляду за допомогою SID-дисплея, окрім світлодіодного індикатора внутрішнього здоров'я та зовнішнього здоров'я. Про це також повідомляється в журналах сервера, SNMP, електронній пошті та ILO.
Я не можу придумати жодних умов, які були б знайдені перед розгортанням, про які не можна було б / не повідомити під час виконання або після встановлення ОС.
Цикл діагностики зазвичай нічого не знайде при запуску в системі без очевидних попередніх проблем. Це головним чином через те, що серверу необхідно виконати POST та завантажитися в утиліту або прошивку Intelligent Provisioning, щоб запустити утиліту.
Інакше кажучи, будь-який елемент, який би був серйозним "SPOF" для сервера, ймовірно, не дозволить системі запустити самодіагностику.
Найпоширеніші елементи відмов все ще досить надійні; диски повинні знаходитись у RAID та їх можна легко замінювати. Вентилятори та джерела живлення також доступні для гарячої заміни. Ваша оперативна пам’ять має порогові значення ECC, і для більшості платформ ProLiant є запасні варіанти в Інтернеті. За допомогою діагностики ви нічого не зможете зробити, щоб викликати збій у цих компонентах. Додайте факт, що ви використовуєте корпуси HP Blade C7000, у яких є внутрішні надлишки , і частота виходу з ладу повинна бути досить низькою.