Це залежить від обладнання вашого сервера. Система Whitebox або Supermicro буде вирішувати це не так, як Dell, HP або IBM ...
Однією з особливостей додаткової вартості серверів високого класу є те, що існує рівень апаратної / ОС інтеграції. Приємніші сервери повідомлятимуть про те, що ви шукаєте, як частину агентів управління та / або рішення поза межами діапазону управління (ILO, DRAC, IPMI).
Ви повинні використовувати інструменти, створені на вашій апаратній платформі.
Витяг із серверів HP ProLiant під управлінням Linux та агентів HP Management:
Trap-ID=6056
ECC Memory Correctable Errors detected.
і
Trap-ID=6052
Advanced ECC Memory Engaged
або більш важкий
Trap-ID=6029
A correctable memory log entry indicates a memory module needs to be
replaced.
або найгірше ... Ігнорування помилки протягом 6 днів, поки сервер не вийде з-за поганої ОЗУ
0004 Repaired 22:21 12/01/2008 22:21 12/01/2008 0001
LOG: Corrected Memory Error threshold exceeded (Slot 1, Memory Module 1)
0007 Repaired 02:58 12/07/2008 02:58 12/07/2008 0001
LOG: POST Error: 201-Memory Error Single-bit error occured during
memory initialization,
Board 1, DIMM 1. Bank containing DIMM(s) has been disabled.
0008 Repaired 19:31 12/08/2009 19:31 12/08/2009 0001
LOG: ASR Detected by System ROM
Вони були зареєстровані, плюс SNMP пастки та електронні листи.
Загалом, ви побачите машинні перевірки винятків у буфері кільця ядра, тому ви можете перевірити dmesg
або запустити mcelog . З мого досвіду роботи з передачею Supermicro без IPMI, це не все сприймало, і в мене все-таки помилки оперативної пам’яті прослизали через тріщини і викликали відключення. На жаль, це призвело до архаїчної політики спалювання ОЗУ перед розгортанням системи.