HP ProLiant DL360 G7 висить на екрані «Потужність та теплова калібрування»


41

У мене з'явилася нова система HP ProLiant DL360 G7, яка представляє складну проблему для відтворення. Сервер випадково зависає на екрані " Потужність і теплова калібрування в процесі ... " під час процесу POST . Зазвичай це відбувається після теплої завантаження / перезавантаження з встановленої операційної системи.

введіть тут опис зображення

Система зупиняється нескінченно на цьому етапі. Випуск перезавантаження або холодного пуску через регулятори живлення ILO 3 робить систему завантаження нормально без інцидентів.

Коли система перебуває в такому стані, інтерфейс ILO 3 є повністю доступним, і всі показники стану здоров'я системи є нормальними (всі зелені). Сервер знаходиться в кліматичному центрі обробки даних з підключенням живлення до PDU. Температура навколишнього середовища - 64 ° F / 17 ° C. Система була розміщена в цілодобовому циклі тестування компонентів до розгортання без відмов.

Основною операційною системою цього сервера є VMWare ESXi 5. Ми спочатку спробували 5.0, а пізніше збірку 5.1. Обидва були розгорнуті за допомогою PXE завантаження та kickstart. Крім того, ми тестуємо бареметальні установки Windows та Red Hat Linux.

Системи HP ProLiant мають вичерпний набір можливостей BIOS. Ми спробували налаштування за замовчуванням, окрім статичного високоефективного профілю. Я вимкнув екран сплеску завантаження і просто отримав миготливий курсор у цій точці порівняно зі знімком екрана, наведеним вище. Ми також спробували деякі "найкращі практики" VMWare для конфігурації BIOS . Ми бачили консультацію від HP, яка, схоже, окреслює подібне питання , але не вирішила нашу конкретну проблему.

Підозрюючи проблему з обладнанням, я змусив продавця надіслати ідентичну систему для доставки в той же день. Новий сервер був повністю ідентичною збіркою, за винятком дисків. Ми перемістили диски зі старого сервера на новий. У нас виникла та ж проблема з випадковим завантаженням обладнання.

Зараз у мене паралельно працюють обидва сервери. Проблема потрапляє випадково на теплі черевики. Здається, у холодних черевиках немає проблеми. Я вивчаю деякі більш езотеричні параметри BIOS, такі як відключення Turbo Boost або повністю відключення функції калібрування живлення. Я міг би спробувати це, але вони не повинні бути необхідними.

Будь-які думки?

--edit--

Деталі системи:

  • DL360 G7 - 2-х-шестиядерний процесор X5670
  • 96 Гб оперативної пам’яті (низьковольтні DIMM 12 х 8 ГБ)
  • 2 x 146 Гб 15 Кб жорсткі диски SAS
  • Резервні джерела живлення 2 х 750 Вт

Всі оновлення мікропрограмного забезпечення від останнього пакета оновлень HP для випуску DVD ProLiant.

Зателефонувавши до HP і перескочивши інтерв'ю, я бачив згадку про погану взаємодію ILO 3, але це трапляється і з сервером на фізичній консолі. Компанія HP також запропонувала джерело живлення, але це в стійці центру обробки даних, що успішно працює над іншими виробничими системами.

Чи є ймовірність, що це може бути поганою взаємодією між низьковольтними DIMM і джерелами живлення потужністю 750 Вт? Цей сервер повинен підтримувати конфігурацію.


2
Будь-який спосіб усунення дисків як можливої ​​причини? Будь-який шанс ви можете перевірити за допомогою альтернативних SAS або SATA дисків?
ErnieTheGeek

Так, протестовано з добре відомим набором дисків у другій системі. Вони бігають паралельно.
ewwhite

1
Єдиний раз, коли я це бачив, був у системі (також DL360 G7), де я намагався використовувати карту, яка не є HP, щоб забезпечити сховище. Коли у мене була і карта SmartArray, і ця інша, вона це зробила. Коли я вийняв будь-яке, то пройшло. Це не твоя проблема, але я передаю те, в що я зіткнувся.
sysadmin1138

1
Можливо, щось пов’язане з мережею? Спробуйте дублювати, не підключаючись до мережі.
ErnieTheGeek

1
@TheCleaner Відключення динамічного обмеження потужності не є можливим на серверах G7. Він був представлений для серії Gen8 ProLiant.
ewwhite

Відповіді:


43

Отже, після введення третьої системи в суміш і пережиття тієї ж проблеми ми почали ставити під сумнів довкілля. Я викопав копію Посібника з усунення несправностей серверів HP ProLiant і виявив схему POST проблем, показану нижче.

введіть тут опис зображення

Ретельно проробляючи кроки на діаграмі, ми зрозуміли, що одна константа на всіх серверах - це перемикач KVM, прикріплений до кошика аварійних систем. Це був KVM з підтримкою USB для споживачів. Відповідно до виділеного вузла на блок-схемі, чи знаєте ви хороший KVM? , Я не зміг відповісти остаточно.

Отже, ми відключили сервери від перемикача KVM і запустили автоматичне завантаження, sleep 300; rebootпослідовність в rc.local. Сервери не мали з цим проблем, незалежно від нормальних DIMM, низьковольтних DIMM, потужності блоку живлення тощо.

Все це було результатом поганої взаємодії з USB-комутатором KVM. В силу того, що це була консоль, вона гарантувала, що ми побачимо невдачу, якщо шукатимемо її. Самореалізація ...


2
Ого, це добре! Радий, що ти це придушив.
нед

7
Свята ворона. +1 для запитання та відповіді. Хороша робота; Я, мабуть, би це не помітив. "Відомий хороший"? Звичайно, це добре відомо - це працює, чи не так?
mfinni

Дуже тобі дякую!!! це був напевно КВМ. Просто відключіть відео та підключіть монітор безпосередньо, і сервер знову буде безперебійно працювати. Після завантаження ОС я підключив KVM назад. Я думаю, що проблема виникла, коли я випадково торкнувся кабелів у задній частині сервера. Система зупинилась і реагувала лише на цю пораду.

1
Будь-яка ідея, як KVM це спричинить?
TheLQ

@TheLQ Причиною тут був дешевий пристрій KVM на рівні споживачів. Можливо, також виникли проблеми з клавіатурою.
ewwhite
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.