Як інтерпретувати повідомлення MCE?


10

Я помітив купу помилок, які нещодавно з’явилися /var/log/messagesна одному з наших серверів (нижче). Однак клієнт mce здається менш певним джерелом помилок, ніж декодовані записи в syslog. Чи є якийсь ключ, який потрібно використовувати для інтерпретації виходу MCE?

Nov 12 04:19:19 areion kernel: [14698753.176035] Machine check events logged
Nov 12 04:19:19 areion mcelog: HARDWARE ERROR. This is *NOT* a software problem!
Nov 12 04:19:19 areion mcelog: Please contact your hardware vendor
Nov 12 04:19:19 areion mcelog: MCE 0
Nov 12 04:19:19 areion mcelog: CPU 0 BANK 8
Nov 12 04:19:19 areion mcelog: MISC 640738dd0009159c ADDR 96236c6c0
Nov 12 04:19:19 areion mcelog: TIME 1352711959 Mon Nov 12 04:19:19 2012
Nov 12 04:19:19 areion mcelog: MCG status:
Nov 12 04:19:19 areion mcelog: MCi status:
Nov 12 04:19:19 areion mcelog: MCi_MISC register valid
Nov 12 04:19:19 areion mcelog: MCi_ADDR register valid
Nov 12 04:19:19 areion mcelog: MCA: MEMORY CONTROLLER RD_CHANNELunspecified_ERR
Nov 12 04:19:19 areion mcelog: Transaction: Memory read error
Nov 12 04:19:19 areion mcelog: STATUS 8c0000400001009f MCGSTATUS 0
Nov 12 04:19:19 areion mcelog: MCGCAP 1c09 APICID 20 SOCKETID 1
Nov 12 04:19:19 areion mcelog: CPUID Vendor Intel Family 6 Model 44

Начебто всі помилки пов'язані з одним банком пам'яті:

areion:~# awk -F'mcelog:' '/mcelog:.*BANK/{ print $2; }' < /var/log/messages |uniq
 CPU 0 BANK 8 

У мене працює демон mcelog, і коли я перевіряю інформацію про помилки, він, схоже, не знає, звідки вони надходять. Тільки те, що вони пов'язані CPU0(у цьому вікні є лише один процесор):

Memory errors
SOCKET 1 CHANNEL any DIMM any
corrected memory errors:
        77 total
        77 in 24h
uncorrected memory errors:
        0 total
        0 in 24h
Per page corrected memory statistics:
359ffc000: total 2 2 in 24h online

3b93cc000: total 2 2 in 24h online

3ce45c000: total 2 2 in 24h online

96236c000: total 20 20 in 24h online triggered

96545c000: total 9 9 in 24h online

96a82c000: total 9 9 in 24h online

96a8ec000: total 1 1 in 24h online

96fb6c000: total 15 15 in 24h online triggered

9c2edc000: total 15 15 in 24h online triggered

9c5eac000: total 1 1 in 24h online

9c6a1c000: total 1 1 in 24h online

Зовсім не зрозуміло, як мені трактувати цю інформацію. З одного боку, mce-клієнт не вказує канал або DIMM, але декодоване повідомлення вказує на помилки, що трапляються на DIMM 8. dmesgСхоже, вказує на те, що було зареєстровано лише 42 повідомлення:

[14698753.176035] Machine check events logged
[14698753.629174] Machine check events logged
[14698815.338595] __ratelimit: 38 callbacks suppressed
[14698815.338628] Machine check events logged
[14698816.020797] Machine check events logged

Здається, я отримую змішані повідомлення, що змушує мене замислитися, які припущення робити на основі інформації, повідомленої з різних джерел.

Інша інформація:

areion:~# grep 'model name' /proc/cpuinfo |uniq
model name      : Intel(R) Xeon(R) CPU           X5670  @ 2.93GHz

areion:~# apt-cache policy mcelog |grep Installed
  Installed: 1.0~pre3-3

areion:~# lsb_release -a
No LSB modules are available.
Distributor ID: Debian
Description:    Debian GNU/Linux 6.0.6 (squeeze)
Release:        6.0.6
Codename:       squeeze

Відповіді:


2

Ви можете спробувати замінити відповідний DIMM (CPU 0, SOCKET 8) і побачити, чи продовжуються генерування повідомлень MCE.

Пакет mcelog поставляється з налаштованими пороговими значеннями для різних подій MCE, які виникають з часом. Ознайомтеся з /etc/mcelog/mcelog.confдеталями. Для помилок сторінки пам'яті поріг становить 10 подій протягом 24 годин. (Я не дуже впевнений, звідки походить це число, але це, мабуть, розумна орієнтир). У вашій публікації згадується 77 виправних подій протягом 24 годин проти цілого ряду сторінок, тому цілком ймовірно, що DIMM розробив проблему, яка може перетворитися на щось більш серйозне.

Я б не надто засмучений отриманням непослідовної інформації з різних джерел. Взагалі я виявив, що все, що є на рівні прошивки, є досить платформою (тобто специфічно для цієї конкретної моделі апаратури). Моє правило щодо проблем, пов’язаних з прошивкою, полягає в тому, що інструменти постачальників зазвичай є найбільш точними, але найменш зручними. Більш загальні інструменти з відкритим кодом легше працювати, але можуть не надати достатньо інформації, щоб точно показати, що відбувається.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.