Як знайти несправний модуль пам'яті з повідомлення MCE?


11

Я намагаюся зрозуміти повідомлення MCE, щоб знайти, який модуль пам'яті поганий на сервері. Це повідомлення з’являється на /var/log/kern.logодному сервері, який сьогодні двічі застигає.

Apr 13 22:39:22 mbox kernel: [36247975.116860] sbridge: HANDLING MCE MEMORY ERROR
Apr 13 22:39:22 mbox kernel: [36247975.116867] CPU 0: Machine Check Exception: 0 Bank 5: 8c00004000010090
Apr 13 22:39:22 mbox kernel: [36247975.116869] TSC 0 ADDR 4a0d75900 MISC 21405cdc86 PROCESSOR 0:206d7 TIME 1428957562 SOCKET 0 APIC 0
Apr 13 22:39:22 mbox kernel: [36247975.951013] EDAC MC0: 1 CE memory read error 

Я підозрюю поганий модуль пам'яті. Сервер являє собою 2x Xeon E5-2650 з модулями пам'яті 8x8Go (8 слотів пам'яті для кожного процесора)

Ось популяція модуля пам'яті з lshw:

 *-memory:0
      description: System Memory
      physical id: 2d
      slot: System board or motherboard
    *-bank:0
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-197.A
         vendor: Kingston
         physical id: 0
         serial: B83AE5C2
         slot: P1_DIMMA1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:1
         description: DIMM Synchronous [empty]
         product: Dimm1_PartNum
         vendor: Dimm1_Manufacturer
         physical id: 1
         serial: Dimm1_SerNum
         slot: P1_DIMMA2
         width: 64 bits
    *-bank:2
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 2
         serial: EC309238
         slot: P1_DIMMB1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:3
         description: DIMM Synchronous [empty]
         product: Dimm4_PartNum
         vendor: Dimm4_Manufacturer
         physical id: 3
         serial: Dimm4_SerNum
         slot: P1_DIMMB2
         width: 64 bits
    *-bank:4
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 4
         serial: E9305438
         slot: P1_DIMMC1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:5
         description: DIMM Synchronous [empty]
         product: Dimm7_PartNum
         vendor: Dimm7_Manufacturer
         physical id: 5
         serial: Dimm7_SerNum
         slot: P1_DIMMC2
         width: 64 bits
    *-bank:6
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 6
         serial: E7305738
         slot: P1_DIMMD1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:7
         description: DIMM Synchronous [empty]
         product: Dimm10_PartNum
         vendor: Dimm10_Manufacturer
         physical id: 7
         serial: Dimm10_SerNum
         slot: P1_DIMMD2
         width: 64 bits
 *-memory:1
      description: System Memory
      physical id: 3f
      slot: System board or motherboard
    *-bank:0
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-197.A
         vendor: Kingston
         physical id: 0
         serial: B63A08C3
         slot: P2_DIMME1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:1
         description: DIMM Synchronous [empty]
         product: Dimm1_PartNum
         vendor: Dimm1_Manufacturer
         physical id: 1
         serial: Dimm1_SerNum
         slot: P2_DIMME2
         width: 64 bits
    *-bank:2
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 2
         serial: EA309638
         slot: P2_DIMMF1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:3
         description: DIMM Synchronous [empty]
         product: Dimm4_PartNum
         vendor: Dimm4_Manufacturer
         physical id: 3
         serial: Dimm4_SerNum
         slot: P2_DIMMF2
         width: 64 bits
    *-bank:4
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 4
         serial: E7305938
         slot: P2_DIMMG1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:5
         description: DIMM Synchronous [empty]
         product: Dimm7_PartNum
         vendor: Dimm7_Manufacturer
         physical id: 5
         serial: Dimm7_SerNum
         slot: P2_DIMMG2
         width: 64 bits
    *-bank:6
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 6
         serial: E7305B38
         slot: P2_DIMMH1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:7
         description: DIMM Synchronous [empty]
         product: Dimm10_PartNum
         vendor: Dimm10_Manufacturer
         physical id: 7
         serial: Dimm10_SerNum
         slot: P2_DIMMH2
         width: 64 bits
 *-memory:2 UNCLAIMED
      physical id: 7
 *-memory:3 UNCLAIMED
      physical id: 9

Як ви можете помітити, на банку №5 немає модуля пам'яті, який. Отже, моє запитання: чи згодні ви з цим повідомленням про збій пам’яті? І якщо так, то як я можу знайти, який модуль замінити?

Відповіді:


10

Ці помилки надходять із класу EDA - виявлення помилок та виправлення пристрою edac_mc пристрою.

Події, які ви отримуєте, - це події CE (виправлені помилки). Це вказівки на те, що DIMM починає виходити з ладу.

EDAC не повідомив жодної конкретної інформації про те, до якого рядка пам’яті чи каналу він посилається, тому важко сказати, який замінити, поки цей не вийде з ладу.

але подивіться на: / sys / devices / system / edac / mc / mc *, і це може розповісти вам трохи більше про те, який рядок / dimm може бути несправним.

Наприклад

ls -s /sys/devices/system/edac/mc/mc0 total 0 0 ce_count 0 csrow1 0 csrow4 0 csrow7 0 reset_counters 0 size_mb 0 ce_noinfo_count 0 csrow2 0 csrow5 0 device 0 sdram_scrub_rate 0 ue_count 0 csrow0 0 csrow3 0 csrow6 0 mc_name 0 seconds_since_reset 0 ue_noinfo_count

подивіться у поле ce_count.

зі сторони:

Система все ще може працювати, але з меншою безпекою. Профілактичне обслуговування та активна заміна деталей пам'яті DIMM, що демонструють СЕ, можуть знизити ймовірність виникнення жахливих подій UE (непоправної помилки) та системних "панік".

Більше інформації про edac тут:

https://www.kernel.org/doc/Documentation/edac.txt


або перезавантажте, а на екрані завантаження GRUB виберіть запит, який може дати вам трохи більше інформації.
kamger

Більше жодного повідомлення MCE сьогодні вранці немає (немає фізичного доступу до сервера), чекаючи, коли він перевірить edac, хороша ідея!
Матг

1

Це може допомогти встановити mcelog і запустити його як демон, він може допомогти забезпечити кращі звіти. Вони все ще дурні, але є дещо більше інформації, щоб знайти винуватця DIMM.

mcelog також може вирішувати проблеми в режимі реального часу, вимикаючи сторінки з надмірними помилками пам'яті і тим самим надаючи більше шансів тримати роботу машини довше, поки ви не зможете відновити її.


Дякую, це те, що я зробив, але більше помилок з першого посту. Ми вирішили замінити всі DIMM.
Матг

Іноді помилки - швидкоплинні перехідні, а іноді їх просто прив’язують до дуже конкретних місць, до яких рідко торкаються. Якби помилки не повторювались, я особисто не замінив би дими і просто продовжував моніторинг, але заміна справедлива також.
Барух Навіть

1

Деякі продавці кажуть, що кілька виправлених помилок протягом певного періоду часу не приносять шкоди.

Наприклад, Oracle каже замінити DIMM, коли відбувається одне з наступних подій:

  • Більше 24 виправлених помилок (CE) виникають за 24 години від одного DIMM, і жоден інший DIMM не показує більше CE.

  • DIMM не дає змоги перевірити пам'ять в BIOS через непомилкові помилки пам'яті (UCE).

  • УЦЕ трапляються, і дослідження показують, що помилки виникали з пам'яті.

Зауважте 24 помилки за 24 години.

https://docs.oracle.com/cd/E19150-01/820-4213-11/dimms.html

Також,

Якщо у декількох DIMM виникли декілька CE, кваліфікований фахівець із підтримки Sun повинен виключити інші можливі причини СЕ перед заміною будь-яких DIMM.

Зрештою, HP каже щось подібне, що це може бути лише прошивка сервера, яка неправильно виявляє помилки пам'яті. Кажуть, у багатьох випадках оновлення прошивки виправляє помилкові позитивні сповіщення. Це може бути особливо вірно, якщо ви почали отримувати MCE від різних DIMM.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.