Чи є певна або вимірювана перевага використання ECC RAM в настільному ПК?


21

Я багато метушився над побудовою стабільних машин - тим, що я абсолютно ненавиджу збої, перезавантаження, смішну поведінку тощо - і тому виправлення помилок aka ECC RAM здавалося б вирішити велику проблему: помилки пам'яті.

Але чи справді це працює? Чи є вимірна перевага, наприклад, менші збої чи інша поведінка?

Окрім вартості, чому б не використовувати пам'ять ECC для складання нового ПК? Чому функція ECC переважно доступна та підтримується для машин класу серверів / робочих станцій, але не на материнських платах, орієнтованих на споживача?


1
Так, ECC дійсно корисні проти м'яких помилок. Проміжна помилка може вийти з ладу системи, якщо помилка в доступі до пам'яті. Повідомлялося, що одна м'яка помилка зупинила мільярд доларів галузі. Ось детальна довідка для цього.
user984260

Відповіді:


10

Я вже кілька років використовую ECC таран у серверах. ECC справді світить, коли ви активно використовуєте свою машину, як це робиться в "більше 12-16 годин на день". Маленькі сервери Whitebox, які я створив без ECC, рано чи пізно розробили "проблеми", які потребували перезавантаження, але машини ECC ніколи їх не мали.

Так що моя відповідь: якщо ви використовуєте ваш комп'ютер багато , то , швидше за все , так. Якщо ви користуєтесь комп’ютером цілодобово, то це повинно бути обов'язковим.

Є деякі материнські плати, які підтримують ECC там. Зазвичай вони знаходяться на «вищому» кінці речей, але за допомогою невеликого дослідження їх можна знайти у різних виробників. Єдине інше питання - пам’ятати, щоб включити підтримку ECC у BIOS.


Google розгорнувся з цього питання. Дивіться http://blogs.zdnet.com/storage/?p=638 про те, як це насправді впливає на сучасні системи.


8
"Маленькі сервери Whitebox, які я створив без ECC, рано чи пізно розробили" проблеми ", які потребують перезавантаження" - це трохи апокрифні / вуду-обчислення для моїх смаків.
Джефф Етвуд

4
І ти думаєш, я цього не знаю? Як інакше можна пояснити одне і те ж програмне забезпечення на тому ж апаратному забезпеченні, яке має дивні проблеми (пошта неправильно доставлена), але проблеми вирішуються самі після заміни всієї ОЗУ? Мені ідея також не подобається, але враховуючи, що це був єдиний головний компонент, що змінився, і, зважаючи на те, що проблеми зникають після оновлення ECC, ну, важко ігнорувати ...
Avery Payne

1
Я також забув згадати - оперативна пам’ять була замінена один раз перед оновленням ECC, і проблема зберігалася. Можливо, це було поганим слідом на мобо. Можливо, це був недолік дизайну в дошці. Я гадаю, що заздалегідь це може бути багато інших питань, кожне з яких вимагатиме, щоб ЕЕ вийшло і дослідило сферу застосування, але наприкінці дня ЕЦК вирішила цю проблему відмовитись, якщо не з іншої причини, ніж з переконайтесь, що дані, отримані з оперативної пам’яті, перебувають у стані 100% послідовності. Джефф, я згоден, що це вуду ... Мені це не подобається, але є.
Avery Payne

1
@Jeff Atwood - ну ... виявляється, це було вуду все-таки в тому сенсі, що ви не можете бачити, що це відбувається з вашим комп'ютером ... див. Cs.toronto.edu/~bianca/papers/sigmetrics09.pdf
Avery Payne

6

Я думаю, що ECC варто використовувати, коли цього вимагає сервер . Вікіпедія :

Виявлення та виправлення помилок у комп'ютерних системах, схоже, виходить і виходить з моди. Сеймур Крей чудово сказав, що "паритет - це для фермерів", коли його запитали, чому він вийшов із CDC 6600.

В Інтернеті я не можу знайти остаточного джерела, окрім неяскравих тверджень про одну бітну помилку на місяць на гігабайт, яка є очевидно смішною; сервери б'ють ліворуч і праворуч у всьому світі, якби це було віддалено правдою.

Деякі основні моменти з потоку MetaFilter від фактичних адміністраторів сервера:

Я думаю, що ECC - це класні речі, але у мене були сервери як із цим, так і без нього, і я ніколи не мав його присутності чи відсутності щось робити, в будь-якому випадку.

Я розумію призначення оперативної пам’яті ECC, але не в цьому суть. Я маю на увазі, я ніколи не помічав жодної проблеми, що виникала в результаті гортання біт космічного променя. Навіть на персональних серверах обчислення / компіляції з декількома періодами часу. Не сказати, що біти не переверталися, але вони, звичайно, не мали значення.

З мого досвіду, що тут і там працюють ферми з декількох тисяч машин, ви, швидше за все, Ext3 мовчки блукають повсюди, ніж матимуть проблеми з ECC-виправленням.

Особисто я вважаю, що ECC є трохи вантажно-культовим, але це розумний страховий поліс на великому приємному сервері до тих пір, поки премія за вартістю не надто висока.


Збій ліворуч і праворуч? Я не думаю, що це було б так погано. Цікаве питання: "збої вліво і вправо" ... Але врахуйте: бітові помилки можуть виникнути в нерозподіленій оперативній пам'яті (партії, на недостатньо використаних серверах) або у виділеній пам'яті, яка, швидше за все, не буде виконана або посилається знову до її звільнення та перерозподілу (наприклад, якщо є трохи помилок у мертвому коді, чи видає це звук?)
Chris W. Rea

Мені також цікаво, чи може Google щось сказати про помилки пам'яті. Вони запускають TON серверів. Цікаво, скільки часу простою сервера було б пов’язано з помилками оперативної пам’яті, на відміну від, скажімо, джерел живлення на фріц ...
Chris W. Rea

3

Ми розглянули це для критичних систем. Однією з проблем стає, як чорт ви робите виявлення помилок у програмному забезпеченні, щоб перевірити цілісність пам’яті, коли програма, яка використовується для запуску перевірки цілісності пам’яті, сама може схильна до помилок пам’яті ??? Ви в основному не можете, і це ускладнює аналіз режиму відмов / пом'якшення відмов, тому ECC є механізмом пом'якшення.

Це один із тих випадків, коли у виникненні проблем можна насправді звинувачувати у космічних променях ;)


2

Я б розглядав ECC-таран для «критично важливих» програм. Якщо помилка сервера призведе до того, що ви втратите значну кількість грошей (або вб'єте людей, чи що завгодно), навесні до барана ECC. В основному, зважте вартість барана ECC порівняно з тим, що ви втрачаєте в разі помилки.

Але незалежно від того, що ви вирішите, я рекомендую запустити MemTest86 + протягом ночі (або досить довго, щоб зробити кілька проходів по всьому адресному простору). І якщо ви зможете підняти тепло (буквально), це дасть вам уявлення про те, як буде працювати ваш баран, коли система працює.

У MemTest у мене з’явилися абсолютно нові помилки експонату оперативної пам’яті. З часом у мене були "хороші" помилки в розробці оперативної пам'яті, які виявив MemTest. Це чудовий інструмент, і одне з перших речей, які я запускаю в новій системі.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.