Найкращий спосіб протестувати нові жорсткі диски на дешевому сервері зберігання даних


31

Я хочу створити сервер зберігання даних і купив 10 x 2TB WD RED's. HDD'sТільки що прибув.

Чи є якийсь інструмент, який ви використовуєте, для перевірки наявності поганих дисків або для найкращого захисту від дитячої смертності, перш ніж копіювати реальні дані на свої диски?

Чи краще перевірити кожен HDDабо перевірити масив ( ZFS raid-z2), скопіювавши на нього багато даних?


1
Я знаю, що існують певні інструменти для постачальника, наприклад, "WD Data LifeGuard Diagnostics". Але мені цікаво, що хлопці роблять, що купують цілу купу жорстких дисків. Я сумніваюся, що вони перевіряють кожен жорсткий диск (що займає багато часу), тому мені цікаво, чи є інструмент, який може виконати повний тест SMART на всіх жорстких дисках одночасно?
s1lv3r

3
Практично все, що записується на накопичувачі, можна використовувати як тест; повний проміжок або два масиви повинен бути достатнім, щоб охопити дитячу смертність. Купувати накопичувачі у різних постачальників / партій - це дійсно гарна ідея, коли ви отримуєте більше пари - це значно знижує шанси виходу з ладу декількох дисків одночасно (через подібні виробничі дефекти).
Chris S

Відповіді:


14

У мене було те саме питання 2 місяці тому. Після відправлення невдалого диска, замінний диск не вдався в моєму NAS через 3 дні. Тому я вирішив перевірити нову заміну, перш ніж вводити її у виробництво. Я не тестую кожен новий диск, який купую, лише на «оновлених» дисках, яким я повністю не довіряю.

Якщо ви вирішили хочете протестувати ці диски, я б рекомендував запустити сканування поганих блоків та розширений тест SMART на абсолютно новому жорсткому диску.

На 2TB диску це займає до 48 годин, команда badblock записує диск, наповнений малюнком, потім знову зчитує блоки, щоб побачити, чи справді шаблон є, і повторить це з чотирма різними шаблонами.

Ця команда, ймовірно, фактично не відображатиме жодних поганих блоків на новому диску, оскільки диски перерозподіляють погані блоки в наші дні.

Тому до і після цього я пройшов розумний тест і перевірив перерозподілений та поточний кількість секторів у очікуванні. Якщо будь-яке з них піднялося, на вашому диску вже є погані блоки, і це може виявитися ненадійним.

Після цього я знову запускаю розширений тест SMART.

Ви можете спочатку встановити smartctl або smartmontools.

Попередження , прапор badblocks -w замінить усі дані на вашому диску, якщо ви просто хочете зробити перевірку читання, не перезаписуючи диск, використовуйтеbadblocks -vs /dev/sdX

sudo smartctl -a /dev/sdX
# record these numbers
sudo badblocks -wvs /dev/sdX
# let it run for 48 hours
sudo smartctl -a /dev/sdX
# compare numbers
sudo smartctl -t long /dev/sdX
# this might take another hour or 2, check results periodically with
sudo smartctl -a /dev/sdX

Якщо після цього ваші розумні значення здадуться нормальним, я б довіряв диску.

Щоб знати, що означає кожна розумна цінність, ви можете почати шукати тут

http://en.wikipedia.org/wiki/Self-Monitoring,_Analysis,_and_Reporting_Technology


Як вважають інші, це може зробити далеко не багато, але оскільки у мене є лише 10 дисків, і це, звичайно, не може зробити нічого поганого, я просто перевіряю всі диски так, як ви запропонували зараз. Дякую за всебічну відповідь.
s1lv3r

23

Це нові диски. Або вони провалюються, або не стануть. Ви вже є величезним кроком вперед, використовуючи файлову систему ZFS, яка дасть вам прекрасне розуміння вашого рейду та здоров'я файлової системи ...

Я б нічого не робив, крім простого створення масиву. У цьому суть надмірності. Ви не зможете викликати збій накопичувача за допомогою інших перерахованих методів.


1
Погодилися з цим - ви будуєте масив. Якщо привід виходить з ладу, коли ви починаєте вводити дані, це не має значення, ви замінюєте його і масив самозцілюється. Тестування накопичувачів на проблеми перед їх використанням не дасть вам належного уявлення про те, чи не вдасться вони в реальному житті - реальне життя не подобається тестам!
Ешлі

1
Я погоджуюсь, що "реальне життя не подобається тести", але я також виявив два збої приводу через погані блоки. Якби я поставив обох у одну і ту ж частину RAID 1, 5 або 10, я втратив би весь RAID.
rjt

1
@rjt, мабуть, ні. Погані сектори будуть перерозподілені, а накопичувачі, ймовірно, не зможуть одночасно вийти з ладу. Плюс до того, що не всі збої приводу - це засоби масової інформації або результат поганих блоків. Що робити, якщо підшипник приводу зношується або несправності?
ewwhite

я, мабуть, не приймаю рішення про важливі дані місії . У дослідженні жорсткого диска Google йдеться про те, що диски або зношуються протягом перших 90 днів, або через 3 роки. погані блоки допомагають усунути низько висячі плоди.
rjt

1
@rjt Звичайно, ви приймаєте рішення щодо важливих для місії даних "напевно" - Якщо б ви цього не зробили, ви б не змогли зберігати дані на будь-якому накопичувачі, незалежно від кількості тестування.
voretaq7

10

Ви можете використовувати Bonnie ++ для тестування. Він може чудово імітувати схему поведінки файлового сервера.

Наприклад:

# bonnie++ -u nobody -d /home/tmp -n 100:150000:200:100 -x 300

Тест запускається як "ніхто" користувача та створює / переписує / видаляє 100 * 1024 файлів, від 200 до 150000 байт на файл, протягом 100 автоматично створених каталогів нижче / home / tmp. І кількість тестів = 300. Ви можете зіграти кількість файлів / розмір та кількість повторень тесту.


9

Зазвичай я просто роблю повний ініціатив RAID і, коли це застосовано, починаю заповнювати файлову систему під час цього, весь час знаючи, що може виникнути проблема через мертві диски. Таким чином, я не витрачаю часу на якісь тести, які все одно є досить ненадійними, і я одразу спіймаю справжні слабкі диски. Після цього, можливо, ще є якийсь підвищений шанс на збій приводу через "дитячу смертність", але немає практичного способу усунути це.

На практиці жоден із останніх сотень дисків, які я використовував у RAID, не мав жодних проблем протягом першого року роботи.


8

Я працюю в компанії, яка проводить такі випробування день у день. І так, ми перевіряємо кожен придбаний вами жорсткий диск. Наш процес починається з запуску накопичувачів через безкоштовну DOS-програму під назвою HDAT2. Його безкоштовно скачати. Він може отримати доступ до SMART та деяких інших функцій накопичувача, недоступних із середовища Windows. Залежно від отриманих результатів, ми запустимо їх через одну з декількох ліній спеціалізованого обладнання, але в основному вони в основному просто виконують короткий самотест SMART, Long Test, безпечне стирання і All Read для перевірки секторів. Моя пропозиція полягає в тому, щоб запустити безпечне стирання повного диска, потім виконати все прочитане, а потім короткий короткий самотест SMART. Цей порядок важливий, оскільки короткий самотест може нічого не знайти, якщо запустити на початку тестування, але після повного запису та читання диска він може щось забрати. Сподіваюсь, це допомагає.


1
serverfault.com/a/501870/117546 має для мене найбільш сенс, але я не є експертом. Чому ваша компанія тестує жорсткі диски. Я б подумав, що найефективнішим тестом було б насправді використання накопичувача.
emory

4

Ви можете використати тестовий набір виробників або щось на зразок SpinRite, щоб підмітати весь диск. Було б також хорошою ідеєю переглянути значення SMART , шукати погані сектори та інші ознаки старості / невдачі.


3

Якщо ви дійсно хочете протестувати, то використовуйте badblocksтест запису. Він запише шаблони даних на диск, а потім прочитає їх, щоб перевірити. Під час цього це трохи підкреслить ваш диск. На мою думку, якщо він працює успішно, ви можете довірити диску.

Але я думаю, що ZFS та хорошого резервного копіювання достатньо.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.