Що таке баран ECC і чому це краще?


31

Я бачив застереження щодо використання ECC ram на серверах. Чому краще?


2
Питання відповіли в іншому запитанні: serverfault.com/questions/5817/…
sh-beta

Чи є якісь докази того, що пам'ять ECC необхідна або корисна для використання? Переваги та механізм дії легко зрозуміти, але я ніколи не чув доказів, які б виправдовували його використання.
Дрю Стівенс

І які різні можливі наслідки від виникнення подібних (бітових) помилок? Наприклад, я щойно вимкнув сервер, який був у мережі 5 років нон-стоп (з ECC таран), і в цілому все пішло нормально, я ніколи не мав жодних скарг від клієнтів, які приймали там або коли-небудь відчували великих винна в цьому ... Те саме з моїм настільним комп'ютером - BSOD тут і там досить рідко, але це все? :)
Денис Воловик

@ Деніс, я думаю, що якщо ви хочете, щоб люди відповідали на ваше запитання, можливо, вам доведеться задати це як окреме питання, а не коментар.
Тобі Аллен

Відповіді:


28

Оперативна пам'ять ECC може відновитись після невеликих помилок у бітах, використовуючи біти парності. Оскільки сервери - це спільний ресурс, де важливий час роботи та надійність, оперативна пам’ять ECC зазвичай використовується лише з невеликою різницею в ціні. Оперативна пам'ять ECC також використовується на робочих станціях CAD / CAM, оскільки невеликі бітові помилки можуть спричинити помилки в обчисленні, які стають більш значущими проблемами при розробці конструкції.


5
Невелика помилка в будь-якій точці міста, включаючи чийсь пакет фінансування малого бізнесу, може бути дуже маленьким або дуже великим. Все залежить від того, який біт.
Зан Лінкс

Додайте до цього той факт, що неправильна помилка в неправильному місці може збити набагато більше, ніж одну машину, коли ви віртуалізуєтеся для консолідації.
MikeyB

1
Я просто чекаю від недобросовісної компанії, яка стверджує, що їх шахрайство з обліком було насправді лише невеликою помилкою.
Елофф

29

Відмінне реальне дослідження:

Помилки DRAM в дикій природі: широкомасштабне польове дослідження (pdf)

У цій роботі подано перше масштабне дослідження помилок пам'яті DRAM в цій галузі. Він ґрунтується на даних, зібраних із серверного флоту Google протягом більше двох років, що становить багато мільйонів днів DIMM. DRAM в нашому дослідженні охоплює декількох постачальників, щільність та технологію DRAM (DDR1, DDR2 та FBDIMM).

У статті розглядаються наступні питання: Наскільки загальні помилки пам'яті на практиці? Які їх статистичні властивості? Як на них впливають зовнішні фактори, такі як температура та використання системи? І як вони змінюються залежно від чіпів факторів, таких як щільність мікросхем, технологія пам'яті та вік DIMM?

Ми виявляємо, що в багатьох аспектах помилки DRAM в полі поводяться дуже інакше, ніж прийнято вважати. Наприклад, ми спостерігаємо коефіцієнти помилок DRAM, які на порядок вищі, ніж повідомлялося раніше, зі швидкістю FIT (невдачі в часі на мільярд годин пристрою) від 25000 до 70 000 на Мбіт і більше 8% DIMM, що постраждали в рік. Ми надаємо вагомі докази того, що в помилках пам’яті переважають жорсткі помилки, а не м'які помилки, на яких зосереджена більшість попередніх робіт. Ми виявляємо, що з-поміж усіх факторів, що впливають на поведінку помилок DIMM в полі, температура надає дивовижно невеликий ефект. Нарешті, на відміну від часто побоюються, ми не спостерігаємо жодних ознак того, що коефіцієнти помилок на DIMM збільшуються у порівнянні з новими поколіннями DIMM.

Цікаво, що більшість помилок пам’яті було важко - помилки жорсткої пам’яті не підлягають усуненню, тобто пам'ять потрібно фізично замінити як помилку, тоді як м'які помилки пам’яті можна виправити, перезаписавши пам’ять на правильне значення. Це вказує на мене, що значення ECC досить обмежене.

Існують два види помилок, які зазвичай можуть виникати в системі пам'яті. Перша називається повторюваною або жорсткою помилкою. У цій ситуації частина обладнання порушена, і він буде постійно повертати неправильні результати. Трохи може застрягнути, щоб він завжди повертав "0", наприклад, незалежно від того, що йому написано. Жорсткі помилки зазвичай вказують на втрачені модулі пам’яті, обдуті мікросхеми, дефекти материнської плати або інші фізичні проблеми. Їх відносно легко діагностувати та виправляти, оскільки вони є послідовними та повторюваними.

Схоже, всі сервери в дослідженні використовували ECC, тому ми не можемо знати коефіцієнт помилок ECC порівняно з не-ECC.

У цій роботі було вивчено частоту та характеристики помилок DRAM на великому парку товарних серверів. Наше дослідження ґрунтується на даних, зібраних протягом більше 2 років, і охоплює DIMM чисельних постачальників, поколінь, технологій та потужностей. Всі DIMM були оснащені логікою виправлення помилок (ECC) для виправлення принаймні одиночних бітових помилок.


5
+1 приємний звіт. Хоча я не знаю , НЕ-ECC частоти помилок, я оцінити , що ні-ECC частота помилок приблизно таким же , як відсоток помилок ECC в ГБ. Ті ж мікросхеми оперативної пам’яті використовуються як в ECC, так і в не-ECC DIMM (ECC DIMM просто використовує 9/8 стільки мікросхем - 72 сирої біти пам'яті для зберігання 64-бітного слова даних, а 8/9 коефіцієнт помилок становить приблизно однаковий показник помилок), і я не бачу причин, щоб чіп оперативної пам’яті мав істотно інший показник помилок при розміщенні на DIMM ECC порівняно з тим, коли він розміщувався на DIMM, який не є ECC.
Девід Кері

9

ECC має ряд переваг перед паритетом. Для одного, він може виявляти та виправляти однобітні помилки і робити це без необхідності зупиняти всю систему. Багаторазові помилки все одно повернуть помилку паритету, але шанси на це трапляються астрономічно низькими протягом життя ПК, якщо пам'ять не є несправною. ECC - це як страхування авто: воно покриває вас для більшості речей, які можуть піти не так, але це не може запобігти накопиченню автомобілів.

докладніше тут: пам'ять ECC: обов'язкова для серверів, а не для настільних ПК


1
Я не згоден зі статтею. Я думаю, що всі повинні використовувати ECC. Я не збирався поступатися, але хотів нового Core I7 достатньо, що нарешті зробив. Однак я впевнений, що мої 6 Гб оперативної пам’яті виявляють помилки всюди.
Zan Lynx

4
@zan, і в цих помилках ви "впевнені", які наслідки вони мають?
Джефф Етвуд

Не здогадуйтесь; виправлені помилки повинні заробити MCE, які можна ввійти в ОС (System Log in Windows, / var / log / mcelog в Linux)
MikeyB

@JeffAtwood: Нічого зазвичай, але у мене були випадкові сині екрани без видимих ​​причин. У системах , які я маю , які роблять мають ECC я бачу кілька одиночних бітових помилок кожен місяць.
Zan Lynx

@JeffAtwood: І, як усі, в чому я впевнений, мені інколи доводилося перевстановлювати додаток (Office. Visual Studio.), Оскільки воно, очевидно, втратило розум. Помилка програми чи помилка ECC викликають пошкоджений файл диска? Хто знає, якщо у вас немає ECC?
Зан Лінкс

5

Щоб зробити все простішим, цитуючи з Вікіпедії :

Електричні або магнітні перешкоди всередині комп'ютерної системи можуть призвести до того, що один біт DRAM мимовільно перетвориться на протилежний стан. Спочатку вважалося, що це в основному пов’язано з альфа-частинками, що виділяються забруднювачами в упаковочному матеріалі мікросхеми, але дослідження [5] показали, що більшість разових ("м'яких") помилок в мікросхемах DRAM виникають в результаті фонового випромінювання
...
Цю проблему можна усунути, використовуючи модулі DRAM, що включають додаткові біти пам'яті та контролери пам'яті, які використовують ці біти. Ці додаткові біти використовуються для запису парності або для використання коду виправлення помилок

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.