Я бачив застереження щодо використання ECC ram на серверах. Чому краще?
Я бачив застереження щодо використання ECC ram на серверах. Чому краще?
Відповіді:
Оперативна пам'ять ECC може відновитись після невеликих помилок у бітах, використовуючи біти парності. Оскільки сервери - це спільний ресурс, де важливий час роботи та надійність, оперативна пам’ять ECC зазвичай використовується лише з невеликою різницею в ціні. Оперативна пам'ять ECC також використовується на робочих станціях CAD / CAM, оскільки невеликі бітові помилки можуть спричинити помилки в обчисленні, які стають більш значущими проблемами при розробці конструкції.
Відмінне реальне дослідження:
Помилки DRAM в дикій природі: широкомасштабне польове дослідження (pdf)
У цій роботі подано перше масштабне дослідження помилок пам'яті DRAM в цій галузі. Він ґрунтується на даних, зібраних із серверного флоту Google протягом більше двох років, що становить багато мільйонів днів DIMM. DRAM в нашому дослідженні охоплює декількох постачальників, щільність та технологію DRAM (DDR1, DDR2 та FBDIMM).
У статті розглядаються наступні питання: Наскільки загальні помилки пам'яті на практиці? Які їх статистичні властивості? Як на них впливають зовнішні фактори, такі як температура та використання системи? І як вони змінюються залежно від чіпів факторів, таких як щільність мікросхем, технологія пам'яті та вік DIMM?
Ми виявляємо, що в багатьох аспектах помилки DRAM в полі поводяться дуже інакше, ніж прийнято вважати. Наприклад, ми спостерігаємо коефіцієнти помилок DRAM, які на порядок вищі, ніж повідомлялося раніше, зі швидкістю FIT (невдачі в часі на мільярд годин пристрою) від 25000 до 70 000 на Мбіт і більше 8% DIMM, що постраждали в рік. Ми надаємо вагомі докази того, що в помилках пам’яті переважають жорсткі помилки, а не м'які помилки, на яких зосереджена більшість попередніх робіт. Ми виявляємо, що з-поміж усіх факторів, що впливають на поведінку помилок DIMM в полі, температура надає дивовижно невеликий ефект. Нарешті, на відміну від часто побоюються, ми не спостерігаємо жодних ознак того, що коефіцієнти помилок на DIMM збільшуються у порівнянні з новими поколіннями DIMM.
Цікаво, що більшість помилок пам’яті було важко - помилки жорсткої пам’яті не підлягають усуненню, тобто пам'ять потрібно фізично замінити як помилку, тоді як м'які помилки пам’яті можна виправити, перезаписавши пам’ять на правильне значення. Це вказує на мене, що значення ECC досить обмежене.
Існують два види помилок, які зазвичай можуть виникати в системі пам'яті. Перша називається повторюваною або жорсткою помилкою. У цій ситуації частина обладнання порушена, і він буде постійно повертати неправильні результати. Трохи може застрягнути, щоб він завжди повертав "0", наприклад, незалежно від того, що йому написано. Жорсткі помилки зазвичай вказують на втрачені модулі пам’яті, обдуті мікросхеми, дефекти материнської плати або інші фізичні проблеми. Їх відносно легко діагностувати та виправляти, оскільки вони є послідовними та повторюваними.
Схоже, всі сервери в дослідженні використовували ECC, тому ми не можемо знати коефіцієнт помилок ECC порівняно з не-ECC.
У цій роботі було вивчено частоту та характеристики помилок DRAM на великому парку товарних серверів. Наше дослідження ґрунтується на даних, зібраних протягом більше 2 років, і охоплює DIMM чисельних постачальників, поколінь, технологій та потужностей. Всі DIMM були оснащені логікою виправлення помилок (ECC) для виправлення принаймні одиночних бітових помилок.
ECC має ряд переваг перед паритетом. Для одного, він може виявляти та виправляти однобітні помилки і робити це без необхідності зупиняти всю систему. Багаторазові помилки все одно повернуть помилку паритету, але шанси на це трапляються астрономічно низькими протягом життя ПК, якщо пам'ять не є несправною. ECC - це як страхування авто: воно покриває вас для більшості речей, які можуть піти не так, але це не може запобігти накопиченню автомобілів.
докладніше тут: пам'ять ECC: обов'язкова для серверів, а не для настільних ПК
Щоб зробити все простішим, цитуючи з Вікіпедії :
Електричні або магнітні перешкоди всередині комп'ютерної системи можуть призвести до того, що один біт DRAM мимовільно перетвориться на протилежний стан. Спочатку вважалося, що це в основному пов’язано з альфа-частинками, що виділяються забруднювачами в упаковочному матеріалі мікросхеми, але дослідження [5] показали, що більшість разових ("м'яких") помилок в мікросхемах DRAM виникають в результаті фонового випромінювання
...
Цю проблему можна усунути, використовуючи модулі DRAM, що включають додаткові біти пам'яті та контролери пам'яті, які використовують ці біти. Ці додаткові біти використовуються для запису парності або для використання коду виправлення помилок