Загальна помилка апаратного забезпечення APEI


9

За останній тиждень мій сервер (під керуванням Debian Jessie) перезавантажився двічі. У syslog я бачу це перед кожним перезавантаженням, і ні в яких інших пунктах:

Aug 15 13:32:58 hoshimiya kernel: [296512.005355] {1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 1
Aug 15 13:32:58 hoshimiya kernel: [296512.005360] {1}[Hardware Error]: It has been corrected by h/w and requires no further action
Aug 15 13:32:58 hoshimiya kernel: [296512.005361] {1}[Hardware Error]: event severity: corrected
Aug 15 13:32:58 hoshimiya kernel: [296512.005362] {1}[Hardware Error]:  Error 0, type: corrected
Aug 15 13:32:58 hoshimiya kernel: [296512.005363] {1}[Hardware Error]:  fru_text: CorrectedErr
Aug 15 13:32:58 hoshimiya kernel: [296512.005364] {1}[Hardware Error]:   section_type: memory error
Aug 15 13:32:58 hoshimiya kernel: [296512.005365] [Firmware Warn]: error section length is too small

Деякий googling приводить мене до думки, що це пов'язано з моїм оперативним виявленням оперативної пам'яті ECC та відновленням після помилки. Це правильно? Якщо воно відновлюється, чому система перезавантажується? Я хотів би не допустити перезавантаження системи, якщо це можливо.

Відповіді:


9

Схоже, ваша оперативна пам'ять виходить з ладу або має помилки, які виправляються. Залежно від тяжкості це звучить, як ці помилки впливають на його здатність функціонувати, і після цього доведеться перезавантажувати.

З огляду на цей потік, вірогідним винуватцем є біт повідомлення в кінці про те, що довжина розділу помилки є занадто малою.

excerpt - [PATCH 1/1] efi: cper: Підтримка різної довжини розділу помилок

Деякі поля можуть бути додані до розділу помилок у новій специфікації UEFI. Наприклад, поля «Зарезервовано», «Номер рейтингу», «Ручка картки» та «Ручка модуля» додаються до розділу про помилки пам’яті, розпочатого з специфікації UEFI 2.3. На жаль, у разі виявлення помилки, виправленої пам'яттю, поле "перегляд" у структурі acpi_generic_data виявиться менше 0x203 (специфікація UEFI 2.3):

{1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 3
{1}[Hardware Error]: It has been corrected by h/w and requires no further action
{1}[Hardware Error]: event severity: corrected
{1}[Hardware Error]:  Error 0, type: corrected
{1}[Hardware Error]:   section_type: memory error
[Firmware Warn]: error section length is too small

Така поведінка призводить до того, що виправлена ​​помилка не може бути відображена правильно. Щоб вирішити проблему, цей патч підтримує різну довжину розділу помилок для різних версій специфікації UEFI.

І цей патч використовує заздалегідь задану структуру для очищення дублюваних кодів у функції cper_estatus_print_section.

Застосовуючи цей патч, помилка, виправлена ​​пам'яттю, може бути відображена правильно після введення помилки.

Тестовано на v3.14-rc5 за допомогою платформи Grantley та Intel RAStool.

Таким чином, здавалося б, виправлення за цією конкретною помилкою є у роботі і може бути доступною в більш новій версії ядра.


3

У мене, здається, у мене дуже схоже питання.

Як виявилося, рішення було витягнути пам'ять і скинути її назад, і все повернулося до норми.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.