Чи потрібно вбудувати оперативну пам’ять для апаратного забезпечення серверного класу?


31

З огляду на той факт , що багато систем серверного класу оснащені ECC RAM , є необхідним або корисним для випалювання з модулями DIMM пам'яті до їх розгортання?

Я стикався з середовищем, коли вся оперативна пам’ять сервера розміщується через тривалий процес запису / стрес-тестування. Це затримує розгортання системи на час та впливає на час роботи обладнання.

Серверне обладнання - це в першу чергу Supermicro , тому оперативна пам’ять отримується у різних постачальників; не безпосередньо від виробника, як Dell Poweredge або HP ProLiant .

Це корисна вправа? У своєму минулому досвіді я просто використовував оперативну оперативну пам'ять поза коробкою. Чи не повинні тести пам'яті POST захоплювати пам'ять DOA? Я відповідав на помилки ECC задовго до того, як DIMM насправді вийшов з ладу, оскільки порогові значення ECC зазвичай були пусковим механізмом розміщення гарантії.

  • Як ви спалюєте в вашій пам'яті?
  • Якщо так, то який метод (и) ви використовуєте для виконання тестів?
  • Чи виявив якісь проблеми до початку розгортання?
  • Чи призвів процес згоряння до будь-якої додаткової стабільності платформи, а не до виконання цього кроку?
  • Що ви робите при додаванні оперативної пам’яті на існуючий запущений сервер?

Відповіді:


25

Кінстон знайшов документ, в якому детально описується, як вони працюють із серверною пам'яттю, я вважаю, що цей процес, як правило, буде однаковим для більшості відомих виробників. Мікросхеми пам'яті, як і всі напівпровідникові пристрої, відповідають певній схемі надійності / відмови, відомій як Крива ванни:

введіть тут опис зображення

Час представлений на горизонтальній осі, починаючи з заводської поставки та продовжуючи три різних періоди часу:

  • Невдачі на початку життя: Більшість збоїв трапляється протягом періоду раннього використання. Однак з часом йде кількість відмов швидко зменшується. Період відмови від раннього життя, показаний жовтим кольором, становить приблизно 3 місяці.

  • Корисне життя: У цей період збої трапляються вкрай рідко. Період корисного життя показаний синім кольором і, за оцінками, становить 20+ років.

  • Збої в кінці терміну служби: з часом напівпровідникові вироби зношуються та виходять з ладу. Період закінчення життя відображається зеленим кольором

Через те, що Кінгстон зазначив, що високі показники аварійності відбудуться протягом перших трьох місяців (після цих трьох місяців прилад вважається хорошим, поки не стане EOL приблизно через 15 - 20 років). Вони розробили тест за допомогою блоку під назвою KT2400, який жорстоко випробовує модулі пам'яті сервера протягом 24 годин при 100 градусах Цельсія при високій напрузі, завдяки якому всі осередки кожного мікросхема DRAM постійно виконуються; цей високий рівень стресового тестування має наслідком старіння модулів щонайменше на три місяці (як зазначалося до критичного періоду, коли більшість модулів виявляють збої).

Результати:

У березні 2004 року Кінгстон розпочав шестимісячне випробування, в якому 100 відсотків пам’яті сервера було протестовано на KT2400. Результати ретельно контролювались для вимірювання зміни відмов. У вересні 2004 року, після того, як всі дані тесту були зібрані та проаналізовані, результати показали, що збої були зменшені на 90 відсотків. Ці результати перевершили очікування та означають значне вдосконалення для лінійки продуктів, яка вже була на вершині свого класу.

То чому записування в пам'яті не корисне для пам’яті сервера? Просто тому, що це вже зробив ваш виробник!


10
Виробник чіпів і, можливо, навіть постачальник серверів може перевірити деякі мікросхеми. Але сьогодні компоненти mst перевірені лише зразками, щоб зменшити вартість. Навіть якщо ваші мікросхеми чи цілі DIMM були протестовані, це не говорить про те, чи були контакти чи друкована плата якимось чином підроблені або зіпсовані під час складання чи доставки. У нас були проблеми з виявленням накопичувача MemTEst86 з пам’яттю з двох різних серверів, поза вікном двох різних постачальників серверів «першого рівня». Якби вони зробили це до виробництва, ECC, можливо, врятував би нас, але мовчазна корупція бази даних також могла бути наслідком.
rmalayter

7
Ця крива ванна не тільки для напівпровідників. Більшість компонентів, побудованих з будь-яким ступенем контролю якості, слідують за нею: жорсткі диски, SSD, джерела живлення (головним чином через конденсатори), вентилятори тощо
voretaq7

6
Це одна з причин, коли я ніколи не купую розширені гарантії на електроніку. Пристрій (або його компонент) або вийде з ладу протягом перших кількох місяців, або триватиме решту свого життя. Це також демонструє, чому так важливо рано відсівати погані яблука, щоб ви могли якомога швидше дістатися до плавного плавання.
Atari911

@rmalayter Отже, ви б прихильників спалити оперативну пам’ять все одно?
ewwhite

2
@ewwhite Так, я б протестував. Для завантаження memtest86 потрібно лише кілька годин або близько того, щоб перевірити 384 ГБ оперативної пам’яті. Ми записуємось у всі підсистеми зберігання, а також використовуючи IOmeter з тієї ж причини. Якщо кілька контролерів RAID або накопичувачів загинули від нас під час опіку протягом останніх кількох років, хоча вони спочатку справно працювали під час встановлення ОС. Іноді це була погана прошивка, іноді несправна оперативна пам'ять кешу на RAID-контролері, іноді це було "хто знає - RMA це!"
rmalayter

30

Ні.

Мета спалювання апаратних засобів - підкреслити його до моменту каталізації несправності в компоненті.

Якщо це зробити з механічними жорсткими дисками, ви отримаєте певні результати, але для оперативної пам’яті це просто не зробить багато. Характер компонента такий, що фактори навколишнього середовища та вік набагато частіше є причиною збоїв, ніж читання та запис у ОЗУ (навіть при максимальній пропускній здатності протягом декількох годин чи днів).

Якщо припустити, що оперативна пам’ять є достатньо високою якістю, що припой не розплавиться вперше, коли ви дійсно почнете його використовувати, процес згоряння не допоможе вам знайти дефекти.


15

Ми купуємо леза, і ми зазвичай купуємо їх у досить великий блок за один раз, як такий ми отримуємо їх і встановлюємо їх протягом DAYS до того, як наші мережеві порти будуть готові / захищені. Таким чином, ми використовуємо цей час для використання мемстату протягом 24 годин, іноді довше, якщо він проходить у вихідні дні. Після цього ми розпорошимо базовий ESXi і IP буде готовий до того, що його хост-профіль буде застосований після підключення мережі. Так що так, ми перевіряємо це, більше можливостей, ніж необхідності, але раніше було спіймано кілька DOA DIMM, і це не я фізично роблю, тому це не вимагає від мене ніяких зусиль. Я за це.


3
"Тест на можливість" має сенс - надаючи шанс, що я це зробив. Якщо це затримає розгортання, я можу ризикувати поганим DIMM та світлом ECC :-)
voretaq7

2
Якщо ви вбудовуєте тест у план розгортання, то ви придбали собі час, якщо ви просто все зробите так швидко, як тільки зможете, ви згодом налаштовуєтесь на критику. Сильне управління, коли можна :)
Chopper3

@ Chopper3 Отже, якщо ви встановлювали політику, чи робіть це завжди? , чи ніколи? або робити це, коли зможеш? .
ewwhite

@ewwhite - Я б сказав останнє, хоча ми схильні розробляти це в стандартний план розгортання, тому це дуже ймовірно кожен раз.
Chopper3

11

Я думаю, це залежить від того, які саме ваші процеси. Я ЗАВЖДИ запускаю MemTest86 на пам'ять, перш ніж помістити його в систему (сервер чи інше). Після запуску системи, проблеми, спричинені несправною пам'яттю, можуть бути важкими для усунення неполадок.

Що стосується насправді "стрес-тестування" пам'яті; Я ще не маю навіть зрозуміти, чому це було б корисно, якщо ви не тестуєте на розгін.


Що вам каже MemTest86? Ви знайшли проблеми з оперативною пам’яттю до встановлення на сервері цим методом?
ewwhite

4
Я знайшов багато помилок із MemTest86 +, які діагностика пам'яті BIOS та Windows не знайде. Дуже рекомендую. Так, ECC знайде ті самі помилки, але пам’ятка допоможе вам їх знайти достроково.
Оуен Джонсон

6
MemTest повідомить вас про наявність недоліків у внутрішній пам'яті. Це робиться, зберігаючи в пам'яті шаблони байтів, а також випадкові набори байт, намагаючись викликати помилку. Програма може запустити "пропуск", щоб повідомити, чи пам'ять хороша, але я, як правило, запускаю кілька пропусків протягом ночі, щоб переконатися. Приємна річ у MemTest - це те, що він підказує мені, чи пам'ять погана, перш ніж розгорнути систему. Це багато разів спрацьовувало RMA і врятувало мені багато головних болів. Після розгортання машини болі в @ss RMA пам'яті.
Atari911

2
@OwenJohnson Загалом, коли ви запускаєте MemTest86 (+), ви сподіваєтеся викликати ці помилки ECC перед тим, як поставити машину у виробництво :-)
voretaq7

6

Я ні, але я бачив людей, які це роблять. Я ніколи не бачив, щоб вони отримували від цього щось, але, думаю, це може бути похмілля чи забобони.

Особисто я мені подобається в тому, що показники помилок ECC для мене більш корисні - якщо припустити, що оперативна пам’ять не DOA, але тоді ви це все б знали.


6

Для операційного пристрою, який не працює ECC, 30 хвилин, що працює на memtest86 +, корисний, оскільки зазвичай не існує надійного способу виявлення бітових помилок під час роботи системи.
Синій скринінг не вважається надійним методом ...
І злегка луската оперативна пам’ять часто не відображається відразу, лише після того, як система побачила деяке завантаження повної пам’яті, і лише тоді, якщо дані в цій ОЗУ були кодом, який звик і потім розбився. Корупція даних може залишатися непоміченою протягом тривалих періодів часу.

Для ECC ram він нічого не зробить, сам контролер пам'яті не буде робити, тому це насправді не має сенсу. Це просто марна трата часу.

З мого досвіду, люди, які наполягають на спалюванні, - це, як правило, старі хлопці, які завжди робили це так, і які продовжують робити це за звичкою, не думаючи, що це справді справжнє.
Або це молоді хлопці, що дотримуються встановленої процедурою, написаної цими старими хлопцями.


Погані знання, передані поколінням?
ewwhite

@ewwhite Так, наскільки я знаю. А в мене є доктор наук. в техніці комп'ютерної апаратури, тому я повинен знати, про що я говорю :-)
Тонні

за винятком усіх випадків людей, які насправді виявили помилки, як показано в потоці. Крім того, якщо це не очевидно, є різниця в заміні деталей перед тим, як взяти сервер у виробництво або замінити оперативної пам'яті на сервері БД, який працює в режимі 24x7. Якщо не робити вигляд, що це "зростала помилка", і всі інші просто старі і роблять вантажні культові речі, але це все ще призведе до втрат, коли сервер prod не матиме офлайн.
Флоріан Хейгл

1
@FlorianHeigl Я не прихильник запису в оперативній пам’яті заради цього, але я ніколи не схвалюю введення сервера у виробництво, не будучи тестуваним стресом протягом принаймні 24 годин. Оперативна пам’ять зазвичай не є проблемою. В'ялі жорсткі диски, контролери RAID, карти IPMI, джерела живлення, процесори, VRM ... Я все це бачив. (І часто сервер переживає початкову установку просто чудово. Це навантаження та / або хейт, які роблять це, коли це дійсно потрібно працювати.)
Tonny

3

Це залежить.

Якщо ви розгортаєте 50 000 нових оперативної пам’яті, і ви знаєте, що саме цей апарат має коефіцієнт відмов 0,01% після роботи менше ніж за день, статистично кажучи, має бути декілька з них, які вийдуть з ладу в перший день. Горіння покликане зловити це. При розгортанні в такому масштабі очікується невдача, а не виняткова ситуація.

Якщо ви розгортаєте лише кілька сотень предметів, то, швидше за все, статистика на вашій стороні, оскільки вам потрібно отримати дуже невдачу, щоб отримати деталі, що вийшли з ладу.


У вас є бал. Щоправда, визнаймо, що більшість із нас ніколи не буде робити такі великі розгортання. (Якщо ви не створюєте новий центр обробки даних Google.) Більшість із нас зазвичай розгортають щонайбільше 5 - 10 серверів одночасно. Найбільшим, що я особисто коли-небудь робив, було 16 ESX-вузлів (4-х 4-вузлові кластери), кожен з яких мав 8 DIMM. Це було 3 роки тому і з тих пір 1 DIMM провалився (2 місяці тому). Довелося замінити 5 джерел живлення на тих же машинах. Перший 1 вже через тиждень. Але оскільки це HP Proliants, ми начебто цього і очікували. (HP та джерела живлення. Не запускайте мене ...)
Tonny
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.