Загальна помилка апаратного забезпечення APEI

9

За останній тиждень мій сервер (під керуванням Debian Jessie) перезавантажився двічі. У syslog я бачу це перед кожним перезавантаженням, і ні в яких інших пунктах:

Aug 15 13:32:58 hoshimiya kernel: [296512.005355] {1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 1
Aug 15 13:32:58 hoshimiya kernel: [296512.005360] {1}[Hardware Error]: It has been corrected by h/w and requires no further action
Aug 15 13:32:58 hoshimiya kernel: [296512.005361] {1}[Hardware Error]: event severity: corrected
Aug 15 13:32:58 hoshimiya kernel: [296512.005362] {1}[Hardware Error]:  Error 0, type: corrected
Aug 15 13:32:58 hoshimiya kernel: [296512.005363] {1}[Hardware Error]:  fru_text: CorrectedErr
Aug 15 13:32:58 hoshimiya kernel: [296512.005364] {1}[Hardware Error]:   section_type: memory error
Aug 15 13:32:58 hoshimiya kernel: [296512.005365] [Firmware Warn]: error section length is too small

Деякий googling приводить мене до думки, що це пов'язано з моїм оперативним виявленням оперативної пам'яті ECC та відновленням після помилки. Це правильно? Якщо воно відновлюється, чому система перезавантажується? Я хотів би не допустити перезавантаження системи, якщо це можливо.

hardware

— муджік
джерело

9

Схоже, ваша оперативна пам'ять виходить з ладу або має помилки, які виправляються. Залежно від тяжкості це звучить, як ці помилки впливають на його здатність функціонувати, і після цього доведеться перезавантажувати.

З огляду на цей потік, вірогідним винуватцем є біт повідомлення в кінці про те, що довжина розділу помилки є занадто малою.

excerpt - [PATCH 1/1] efi: cper: Підтримка різної довжини розділу помилок

Деякі поля можуть бути додані до розділу помилок у новій специфікації UEFI. Наприклад, поля «Зарезервовано», «Номер рейтингу», «Ручка картки» та «Ручка модуля» додаються до розділу про помилки пам’яті, розпочатого з специфікації UEFI 2.3. На жаль, у разі виявлення помилки, виправленої пам'яттю, поле "перегляд" у структурі acpi_generic_data виявиться менше 0x203 (специфікація UEFI 2.3):
{1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 3
{1}[Hardware Error]: It has been corrected by h/w and requires no further action
{1}[Hardware Error]: event severity: corrected
{1}[Hardware Error]:  Error 0, type: corrected
{1}[Hardware Error]:   section_type: memory error
[Firmware Warn]: error section length is too small
Така поведінка призводить до того, що виправлена помилка не може бути відображена правильно. Щоб вирішити проблему, цей патч підтримує різну довжину розділу помилок для різних версій специфікації UEFI.

І цей патч використовує заздалегідь задану структуру для очищення дублюваних кодів у функції cper_estatus_print_section.

Застосовуючи цей патч, помилка, виправлена пам'яттю, може бути відображена правильно після введення помилки.

Тестовано на v3.14-rc5 за допомогою платформи Grantley та Intel RAStool.

Таким чином, здавалося б, виправлення за цією конкретною помилкою є у роботі і може бути доступною в більш новій версії ядра.

— slm
джерело

3

У мене, здається, у мене дуже схоже питання.

Як виявилося, рішення було витягнути пам'ять і скинути її назад, і все повернулося до норми.

— Даррен Гаррісон
джерело