Як я можу знайти, у якій пам'яті є помилка CE?


12

В /var/log/kern.log:

kernel: [13291329.657499] EDAC MC0: 48 CE error on CPU#0Channel#2_DIMM#0 (channel:2 slot:0 page:0x0 offset:0x0 grain:8 syndrome:0x0)

Це edacжурнал, в одній із пам'яті є ceпомилка.

Я читав edac doc

Dual channels allows for 128 bit data transfers to the CPU from memory.
Some newer chipsets allow for more than 2 channels, like Fully Buffered DIMMs
(FB-DIMMs). The following example will assume 2 channels:


            Channel 0   Channel 1
    ===================================
    csrow0  | DIMM_A0   | DIMM_B0 |
    csrow1  | DIMM_A0   | DIMM_B0 |
    ===================================

    ===================================
    csrow2  | DIMM_A1   | DIMM_B1 |
    csrow3  | DIMM_A1   | DIMM_B1 |
    ===================================

і знайти канал помилки:

$ grep "[0-9]" /sys/devices/system/edac/mc/mc*/csrow*/ch*_ce_count
/sys/devices/system/edac/mc/mc0/csrow0/ch0_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow0/ch1_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow0/ch2_ce_count:144648966
/sys/devices/system/edac/mc/mc0/csrow1/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch1_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch2_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow1/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow1/ch1_ce_count:0

і він повинен бути mc0/csrow0/ch2, як док, DIMM DIMM_C0, і його можна знайти dmidecode:

Але я не можу знайти цей DIMM, тому я не знаю, у якій пам'яті є проблема:

$ dmidecode -t memory | grep 'Locator: PROC'
        Locator: PROC 1 DIMM 2A
        Locator: PROC 1 DIMM 1D
        Locator: PROC 1 DIMM 4B
        Locator: PROC 1 DIMM 3E
        Locator: PROC 1 DIMM 6C
        Locator: PROC 1 DIMM 5F
        Locator: PROC 2 DIMM 2A
        Locator: PROC 2 DIMM 1D
        Locator: PROC 2 DIMM 4B
        Locator: PROC 2 DIMM 3E
        Locator: PROC 2 DIMM 6C
        Locator: PROC 2 DIMM 5F

Є 12 слотів, а 9 слотів мають пам'ять.

Тож як я можу знати, з якою проблемою є пам'ять?


Доплата:

System Information
        Manufacturer: HP
        Product Name: ProLiant DL180 G6

Що це за сервер? Виробник та модель сервера.
ewwhite

@ewwhite, привіт, я оновив питання з інформацією про систему.
Tanky Woo

Яку операційну систему ти працюєш?
ewwhite

@ewwhite OS є Ubuntu 12.04, Kernel is3.10.20
Tanky Woo

О, вибачте ... Ubuntu насправді не підтримується цим обладнанням , тому ви втрачаєте можливість правильно його контролювати, не використовуючи RHEL / CentOS / Debian / SuSE ...
ewwhite

Відповіді:


8

Ваша проблема DIMM, ймовірно, - Locator: PROC 1 DIMM 5F

Процесор # 0Канал №2_DIMM № 0 означає:

PROC 1, 
1D,2A = Channel 0  
3E,4B = Channel 1
5F,6C = Channel 2

5F = DIMM 0
6C = DIMM 1

Редагувати:

Задаючи питання, більше інформації завжди краще ... Наявність виробника та моделі сервера спростила б це:

Ось схема пам'яті від HP ProLiant DL180 G6 Quickspecs :

введіть тут опис зображення

Моя припущення, що DIMM в слоті №1 CPU є правильним ... Але це обладнання HP. Вам не потрібно вгадувати !!

Вам слід використовувати агенти управління HP, оскільки вони можуть попереджати та надавати детальні відомості про платформу щодо стану обладнання та стану ...

[root@veloce ~]# hpasmcli
HP management CLI for Linux (v2.0)
Copyright 2008 Hewlett-Packard Development Group, L.P.

--------------------------------------------------------------------------
This server ProLiant DL180 G6  , is a Proliant 100 Series Server.
NOTE: Some hpasmcli commands may not be supported on 100 series servers.
      Type 'help' to get a list of all top level commands.
--------------------------------------------------------------------------
hpasmcli> show dimm
Cartridge #:    0
Processor #:    1
Module #:       2
Present:        Yes
Form Factor:    fh
Memory Type:    5h
Size:           4096 MB
Speed:          1333 MHz
Status:         N/A

Cartridge #:    0
Processor #:    1
Module #:       1
Present:        Yes
Form Factor:    fh
Memory Type:    5h
Size:           4096 MB
Speed:          1333 MHz
Status:         N/A

Cartridge #:    0
Processor #:    1
Module #:       4
Present:        Yes
Form Factor:    fh
Memory Type:    5h
Size:           4096 MB
Speed:          1333 MHz
Status:         N/A

Cartridge #:    0
Processor #:    1
Module #:       6
Present:        Yes
Form Factor:    fh
Memory Type:    5h
Size:           4096 MB
Speed:          1333 MHz
Status:         N/A

дякую, чи є який-небудь звільнений документ?
Tanky Woo

@TankyWoo Так, див. Вище.
ewwhite

PROC1 DIMM 5Fу вас немає пам’яті. Отже, ви означає, що слот насправді не підтверджений? Я повинен додати дзеркало HP deb і встановити, hpamscliщоб отримати правильний DIMM?
Tanky Woo

У мене встановлення hp-health, і Statusце те N/Aсаме, що і ваш вставлений вихід.
Tanky Woo

Запустіть, hplog -vщоб перевірити наявність записів у журналі IML HP.
ewwhite
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.