Як змусити сервери HP надіслати мені електронну пошту, коли диск не працює?


11

В ідеалі, з максимально простим встановленням і без необхідності перезавантаження серверів. Здебільшого, DL380 G5'sякщо це допомагає.


Ганьба, що вони не G7, або ви можете використовувати HP Insight Manager.
Том О'Коннор

На ваших серверах працює ОС Windows або Linux?
Том О'Коннор

Які операційні системи ви працюєте на цих серверах?
ewwhite

Всі вони 2003 і 2008 років - і ваніль, і R2. Я грав зі SIM, але він не міг розмовляти зі своїми G5.
DrZaiusApeLord

SIM все ще повинна бути сумісною з G5 ProLiants. Чи були у вас встановлені агенти, коли ви намагалися раніше?
ewwhite

Відповіді:


16

Це трохи залежить від операційних систем, на яких ви працюєте на серверах, але в цілому можна отримати сповіщення від серверів HP ProLiant та контролерів RAID Smart Array RAID.

Повний список драйверів та програмної підтримки для ваших систем DL380 G5 наведено тут .

SNMP та рішення для моніторингу - найкращий підхід ... Але ви можете доповнити це деякими інструментами HP. HP пропонує HP System Insight Manager , який доступний для завантаження, а також постачається із серверами. Це ідеально підходить для колекцій серверів. Якщо ви шукаєте одноразові сповіщення, не будуючи інфраструктуру управління або моніторингу, ви можете просто встановити агенти управління HP (він же ProLiant Pack Pack ).

У автономних системах Linux агенти надсилають пастки електронною поштою. Зазвичай я налаштовую пакет підтримки за замовчуванням або спеціальний пакет , після чого відредагую /opt/hp/hp-snmp-agents/cma.confта змінюю trapemailрядок, щоб вказати адресу одержувача:

########################################################################
# trapemail is used for configuring email command(s) which will be
# executed whenever a SNMP trap is generated.
# Multiple trapemail lines are allowed.
# Note: any command that reads standard input can be used. For example:
#             trapemail /usr/bin/logger
#       will log trap messages into system log (/var/log/messages).
########################################################################
trapemail /bin/mail -s 'HP Insight Management Agents Trap Alarm' systems@1234.net

Якщо ви працюєте з Linux і не хочете встановлювати повний пакет управління HP, ви можете розробити сценарій навколо утиліти cciss_vol_status для запиту контролера / стану диска. Також дивіться: Встановлення агентів HP на OpenFiler


будь-який елегантний спосіб перевірити оповіщення про несправність масиву RAID, крім витягування накопичувача зі слота? У мене є кілька ProLiant DL360 G7серверів, і HP SIM налаштовано для моніторингу.
Банджер

Не те, що я знаю. Агенти Insight безумовно працюють. Якщо ви можете бачити стан масиву через утиліту hpacucli і знаєте, що отримуєте оповіщення в HP SIM, я думаю, що справедливо припускати, що все буде працювати.
ewwhite


3

Я використовував легку програму, яку @ewwite згадував у своїй відповіді: cciss_vol_status

Якщо ви дотримуєтесь супровідних інструкцій INSTALL, сценарій розміщується в /usr/local/bin/cciss_vol_status.

Ось скрипт для обгортки, який я використовую для отримання даних про cciss_vol_status, і надіслати електронний лист, якщо будь-який масив має статус НЕВЕРШЕНО.

#!/bin/bash
#
# Check status of RAID volumes on HP Smart Array controllers.  Send an email
# alert if any volumes have a FAILED status.
#
status=`/usr/local/bin/cciss_vol_status /dev/sd*`

# email lock file
lockfile=/tmp/raid.check.hp.smartarray.lock
# how often to send an email (minutes)
_notification_freq=59
_host=`hostname`
# To: email
_toemail=root

# create email lock file
[ ! -f ${lockfile} ] && /bin/touch ${lockfile}

if echo $status | grep -q FAILED
then
    # make sure we haven't sent a notification in the last X minutes
    if test `find ${lockfile} -mmin +${_notification_freq}`
    then
        echo -e "${status}" | /bin/mail -s "System Alert! RAID failure on ${_host}" ${_toemail}

        # update lock file mod time
        /bin/touch ${lockfile}
    fi
fi

Викличте вищезгаданий скрипт у cron. Я запускаю чек кожні дві хвилини:

*/2 * * * * /usr/local/bin/raid.check.hp.smartarray.sh

Ми використовуємо HP System Insight Manager, щоб перевірити, чи працюють наші HP, але нічого іншого, крім цього. Я виявив, що агент Linux є непосильним для нас, оскільки у нас є інші моніторингові рішення, тому цей вищезазначений сценарій добре виконує свою конкретну мету.

ОНОВЛЕННЯ

Просто порада щодо усунення несправностей у випадку, якщо ви стикаєтеся з цим. Цей скрипт виявився корисним сьогодні вранці, коли мені надійшло повідомлення про невдалий масив із:

Досягнуто брудного обмеження кешу

Пристрій перейшов лише для читання і не був видно в /proc/partitions. Я перезавантажив сервер і побачив ці повідомлення під час завантаження:

Логічні накопичувачі відключені через можливу втрату даних. Виберіть "F1", щоб продовжити вимкнення логічних накопичувачів. Виберіть "F2", щоб прийняти втрату даних та знову ввімкнути логічні накопичувачі

Я вибрав F2, і RAID був чудовим і встановлений на завантаженні.


1

встановити smartmontools. Електронна пошта, що передує, перед тим, як вийде з ладу.


2
~ 30% часу. SMART - це не срібна куля.
HopelessN00b
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.