Як слід горіти на жорстких дисках?


41

Google провів дуже ретельне дослідження щодо несправностей жорсткого диска, в результаті якого виявилось, що значна частина жорстких дисків виходить з ладу протягом перших 3 місяців великого використання.

Мої колеги і я думаю, що ми могли б реалізувати процес опіку для всіх наших нових жорстких дисків, що потенційно може врятувати нас від болю у втраті часу на нові, неперевірені диски. Але перед тим, як здійснити процес спалювання, ми хотіли б ознайомитись з іншими досвідченими:

  • Наскільки важливо записати на жорсткий диск, перш ніж почати користуватися ним?
  • Як ви реалізуєте процес спалювання?
    • Як довго ви горіли на жорсткому диску?
    • Яке програмне забезпечення ви використовуєте для запису на накопичувачі?
  • Скільки стресу занадто багато для процесу спалювання?

РЕДАКТУВАННЯ: Через характер бізнесу RAID не можна використовувати більшу частину часу. Нам доводиться покладатися на одиничні приводи, які надсилаються по всій країні досить часто. Ми створюємо резервні копії накопичувачів, як тільки можемо, але ми все ще зустрічаємося з помилками тут і там, перш ніж отримуємо можливість створити резервну копію даних.

ОНОВЛЕННЯ

Моя компанія впродовж певного часу впровадила процес спалювання, і він виявився надзвичайно корисним. Ми негайно записуємо всі нові накопичувачі, які ми отримуємо на складі, що дозволяє нам знайти багато помилок до закінчення гарантії та перед встановленням їх у нові комп'ютерні системи. Це також виявилося корисним перевірити, що привід зіпсувався. Коли на одному з наших комп’ютерів починають виникати помилки, а жорсткий диск є головним підозрюваним, ми повторно повторимо процес запису на цьому диску та розглянемо будь-які помилки, щоб переконатися, що диск був насправді проблемою перед запуском процесу RMA або викиданням це у смітнику.

Наш процес спалювання простий. У нас призначена система Ubuntu з великою кількістю портів SATA, і ми запускаємо неполадки в режимі читання / запису з 4 проходами на кожному диску. Для спрощення речей ми написали сценарій, який друкує попередження "ДАНІ ВІДБУДУВАННЯ ВСІХ ВАШІХ ДИВІВ", а потім запускає неполадки на кожному диску, крім системного диска.


15
Цікаво, чому ви надсилаєте пошту з накопичувачами по всій країні? Це здається, що ви швидше зіткнетеся з несправністю диска внаслідок пошкодження шоку та загального неправильного поводження поштовою службою, ніж через причини, які виявлять згоряння.
Paperjam

6
@Lie Ryan: Надсилання обладнання для зберігання даних все ще є найшвидшим способом передачі даних. Інтернет дуже повільний, і якщо вам потрібно пройти через інституційні мережі та брандмауери, він стає ще гіршим.
Йонас

4
@Lie Ryan: Якщо ви маєте справу з секретними даними уряду, SSH не зробить цього . Як правило, комп’ютер, що містить ці дані, може бути не підключений до загальнодоступного Інтернету. Якщо у вас є гігабайти секретних даних для передачі, розсилка зашифрованого накопичувача - це найбільш ефективний варіант.
бензадо

3
@Lie Ryan: Надзвичайно. Навіть при дійсно швидкому підключенні до Інтернету вам знадобиться місяць, щоб доставити 7 ТБ (і це, якщо у вас є розкіш мати контроль над пропускною здатністю та одержувачем). З ДБЖ 7ТБ є наступного дня.
Йонас

5
Це приємно і все, крім випадків, коли у вас на дорозі мобільні команди збирають величезну кількість даних. Це означає, що вам потрібно покластися на підключення до готелю чи мобільного Інтернету, і ви ніколи не знаходитесь на одному місці більше 8 годин.
Філ

Відповіді:


36

Наскільки важливо записати на жорсткий диск, перш ніж почати користуватися ним?

Якщо у вас хороша резервна копія та хороші системи з високою доступністю, то не дуже. Оскільки відновлення після невдачі має бути досить простим.

Як ви реалізуєте процес спалювання? Яке програмне забезпечення ви використовуєте для запису на накопичувачі? Скільки стресу занадто багато для процесу спалювання?

Я, як правило, запускаю погані блоки проти диска або нової системи, коли отримаю його. Я запускатиму його щоразу, коли воскрешаю комп’ютер із купи запасних частин. Така команда, як ця ( badblocks -c 2048 -sw /dev/sde), насправді запише в кожен блок 4 рази кожен раз з іншим малюнком (0xaa, 0x55, 0xff, 0x00). Цей тест не робить нічого для тестування безлічі випадкових читання / запису, але він повинен довести, що кожен блок може бути записаний і прочитаний.

Ви також можете запустити bonnie ++ або іометр, які є інструментами порівняльного аналізу. Вони повинні спробувати трохи підкреслити ваші диски. Диски не повинні виходити з ладу, навіть якщо ви намагаєтеся їх максимально розширити. Тож ви можете також спробувати побачити, що вони можуть зробити. Я цього не роблю. Отримання еталону вводу-виводу системи зберігання прямо під час встановлення / налаштування може бути дуже корисним у майбутньому, коли ви переглядаєте проблеми з продуктивністю.

Як довго ви горіли на жорсткому диску?

На мою думку, достатньо одного запуску неполадок, але я вважаю, що у мене дуже потужна система резервного копіювання, і мої потреби в НА не такі високі. Я можу дозволити собі час простою, щоб відновити сервіс у більшості систем, які я підтримую. Якщо ви настільки переживаєте, що, на вашу думку, може знадобитися налаштування з декількома проходами, то, ймовірно, у вас все-таки повинні бути RAID, хороші резервні копії та гарне налаштування HA.

Якщо я поспішаю, я можу пропустити опік. Мої резервні копії та RAID повинні бути добре.


49

IMNSHO, вам не слід покладатися на процес спалювання, щоб вилучити погані диски та "захистити" ваші дані. Розробка цієї процедури та її реалізація потребує часу, який можна було б краще використовувати в іншому місці, і навіть якщо накопичувач перейде в режим згоряння, він може все-таки вийти з ладу через кілька місяців.

Ви повинні використовувати RAID та резервні копії для захисту своїх даних. Як тільки це буде на місці, нехай хвилюється про накопичувачі. Хороші RAID-контролери та підсистеми зберігання матимуть «очищення» процесів, які так часто переходять за даними та забезпечують, щоб все було добре.

Після того, як все буде забезпечено, не потрібно робити чистку дисків, хоча, як вже згадували інші, не завадить робити тест навантаження системи, щоб переконатися, що все працює, як ви очікували. Я б не переймався окремими дисками взагалі.


Як уже згадувалося в коментарях, не має великого сенсу використовувати жорсткі диски для вашого конкретного випадку використання. Передача їх набагато частіше спричинить помилки даних, яких не буде, коли ви робили опік.

Стрічковий носій призначений для доставки. Ви можете отримати 250MBps (або стиснутий до 650MBps) за допомогою одного диска IBM TS1140, який повинен бути швидшим, ніж ваш жорсткий диск. А ще більше - один картридж може отримати до 4 ТБ (нестиснений).

Якщо ви не хочете використовувати стрічку, використовуйте SSD. З ними можна поводитися набагато грубіше, ніж на жорстких дисках, та задовольнити всі вимоги, які ви задали до цього часу.


Зрештою, ось мої відповіді на ваші запитання:

  • Наскільки важливо записати на жорсткий диск, перш ніж почати користуватися ним?
    Зовсім ні.
  • Як ви реалізуєте процес спалювання?
    • Як довго ви горіли на жорсткому диску?
      Один-два пробіги.
    • Яке програмне забезпечення ви використовуєте для запису на накопичувачі?
      Простий пробіг, скажімо, shredі badblocksзробить. Після цього перевірте дані SMART.
  • Скільки стресу занадто багато для процесу спалювання?
    Ніякого стресу не надто багато. Ви повинні мати можливість кинути що-небудь на диск, не роздуваючи його.

1
Я тільки шкодую про цю посаду, що я можу висувати її лише один раз. @Phil, ти знову вигадуєш колесо. Способом гарантувати, що ви не втрачаєте дані до випадкових збоїв накопичувача (або інших відповідних апаратних засобів), є резервне копіювання та масиви RAID.
Роб Муар

8
Я погоджуюся, що вам не слід покладатися на це, але запуск сканування системи перед тим, як вона буде запущена у виробництво, кілька разів виявила для мене потенційне питання. Якщо ви не поспішаєте, дозволяючи комп'ютеру сканувати день або два, зазвичай нічого не шкодить.
Zoredache

7
Ця відповідь має найвищі голоси, але найбільше не змогла відповісти на питання. ОП заявила, що RAID неможливо. Якщо "одиночні диски отримують пошту по всій країні", рейд не може бути побудований. Процес резервного копіювання є в наявності, але, схоже, що ОП хоче знайти що-небудь і все, щоб допомогти заощадити час у випадку, якщо привід поганий. (Примітка. Я працюю в тій же компанії, що і ОП, тому я знаю ситуацію, коли дані будуть скопійовані в RAID після її доставки. Якщо ви ВІДГОТИ спалювати на накопичувачах, гіпотетично, як би ви зробили це?
jsmith

3
У цьому випадку питання повинно забезпечити цей контекст. З того, що ви говорите, питання повинно бути таким: "Нам потрібно надсилати жорсткі диски по пошті / вантажі з равликом. Як ми повинні зробити тест на випал перед доставкою, щоб мінімізувати помилки?" Як не дивно, відповідь не змінюється. Надішліть пару приводів! Або краще, скористайтеся стрічками. Стрічки призначені для використання таким чином, жорсткі диски - ні. Більше інформації призводить до іншої відповіді.
MikeyB

2
Стрічки не можуть записувати дані так швидко, як жорсткі диски? 250 Мбіт / с (нестиснений) недостатньо для вас? Я б сказав, що процес спалювання насправді не допоможе захистити від збоїв у вашому випадку використання.
MikeyB

8

З огляду на ваше уточнення, це не здається, що будь-який процес згоряння вам не принесе користі. Приводи виходять з ладу насамперед через механічних факторів, як правило, тепла та вібрації; а не через якусь приховану бомбу. Процес "спалювання" тестує середовище установки стільки ж, скільки і все інше. Як тільки ви пересунете річ, ви повернетесь туди, звідки почали.

Але ось кілька покажчиків, які можуть вам допомогти:

Приводи для ноутбуків, як правило, розроблені так, щоб витримувати більш стукіт і вібрацію, ніж настільні накопичувачі. Мої друзі, які працюють у магазинах для відновлення даних, завжди надсилають дані клієнтам на накопичувачі ноутбуків з цієї причини. Я ніколи не перевіряв цей факт, але, здається, це "загальновідомі знання" в окремих галузях.

Flash-накопичувачі (наприклад, USB-накопичувачі) є найбільш стійкими до ударів із будь-якого носія. Ще менше шансів на те, що ви втратите дані в дорозі, якщо будете використовувати флеш-носії.

Якщо ви поставляєте привід Вінчестера, зробіть поверхневу перевірку, перш ніж ввести його в експлуатацію. Або ще краще, просто не використовуйте його. Натомість ви можете призначити певні накопичувачі дисками "доставкою", які бачать усі зловживання, але на які ви не покладаєтесь на цілісність даних. (Тобто: копіюйте дані на накопичувач для доставки, копіюйте після доставки, дуже контрольні суми з обох сторін, подібні речі).


"Як тільки ви пересунете річ, ви повернетесь туди, з чого почали." - неправда. так виглядає графік MTTF для диска: cs.cmu.edu/~bianca/fast/img13.png cs.ucla.edu/classes/spring09/cs111/scribe/16/… тестування в ранньому періоді може фільтрувати З багатьох проблемних приводів виробники насправді роблять ці стрес-тести, щоб зробити більш надійним продукт, але, звичайно, це не економно робити тест, поки графік не розгладиться.
Каролі Горват

3
@yi_H: Я думаю, що Tylerl має на увазі, що, ймовірно, причина раннього відмови пов’язана з самим процесом доставки (що не є правдоподібним, я хотів би побачити графік, що планує збій диска від частоти розсилки), тому, якщо ви відправляєте жорсткий диск по всій країні, тоді MTTF відновиться; тож якщо ви надсилаєте пошту накопичувач кожні три місяці, ви завжди знаходитесь у зоні ранньої відмови
Лі Лі Райан

5

Ваш процес неправильний. Ви повинні використовувати рейдові масиви. Там, де я працюю, ми створили масивні рейдові масиви, призначені для транспортування навколо. Це не ракетна наука. Шокове встановлення приводів у великих розмірах з великими гумовими віброізоляторами значно покращить надійність. (Приводи сузір’ї Seagate-es, як приклад, оцінені на удар струмом 300 Г, але лише 2G вібрація, не працює: тому пристрій доставки повинен вібраційно ізолювати привід. Http://www.novibes.com/Products&productID=62 або http : //www.novibes.com/Products&productId=49 [частина # 50178])

Однак ви дійсно хочете записати на тест-жорстких дисках, так ось що.

Я працював над такими системами, як жорсткі диски, і горів, знайшов деякі проблеми, але ...

Для прискореного тестування життєвого циклу друкованих плат, щоб виявити несправності, ніщо не перевищує деякі гарячі / холодні цикли. (експлуатація циклів гарячого та холодного холоду працює навіть краще ... але вам це складніше, особливо з банками HDD)

Отримайте собі велику кількість екологічних камер для кількості накопичувачів, які ви придбаєте за один раз. (Це досить дорого, було б дешевше перевозити рейдові масиви навколо) Ви не можете скупитися на тестові камери, вам знадобиться контроль вологості та програмувальні рампи.

Програмуйте у двох повтореннях температурних скачок, аж до мінімальної температури зберігання, до максимальної температури зберігання, зробіть пандуси досить крутими, щоб засмутити інженера програми від вашого виробника жорсткого диска. Три холодні та гарячі цикли за 12 годин повинні побачити, що накопичувачі виходять з ладу досить швидко. Запускайте накопичувачі принаймні 12 годин, як це. Якщо після цього буде якась робота, я здивуюсь.

Я не задумувався над цим: одне місце, де я працював, у нас був інженер з виробництва, щоб отримати більше продуктів, що поставляються з тим же випробувальним обладнанням, у тесті був величезний сплеск несправностей, але рівень загиблих при прибутті впав практично нуль.


5

Я не погоджуюся з усіма відповідями, які в основному говорять "Не турбуйся про згорання, май хороші резервні копії".

Хоча у вас завжди повинні бути резервні копії, я вчора провів 9 годин (понад звичайну 10-годинну зміну), відновлюючись із резервних копій, оскільки система працювала з накопичувачами, які не були записані.

У конфігурації RAIDZ2 було 6 дисків (ZFS еквівалент RAID-6), і у нас було 3 диски, які гинули протягом 18 годин на коробці, яка працювала приблизно 45 днів.

Найкраще рішення, яке я знайшов, - придбати накопичувачі у одного конкретного виробника (не змішуйте і не співпадайте), а потім запустити їх наданий інструмент для здійснення приводів.

У нашому випадку ми купуємо Western Digital і використовуємо їх діагностику приводу на основі DOS від завантажувального ISO. Ми розпалюємо це, запускаємо опцію запису випадкового сміття на весь диск, після чого виконуємо короткий тест SMART з подальшим довгим тестом SMART. Цього зазвичай достатньо, щоб вилучити всі погані сектори, прочитати / написати перерозподіл тощо.

Я все ще намагаюся знайти гідний спосіб його "дозування", щоб я міг запускати його проти 8 дисків одночасно. Можна просто використовувати "dd, якщо = / dev / urandom of = / dev / what 'в Linux або" badblocks ".

РЕДАКТИРУВАТИ: Я знайшов приємніший спосіб його "дозування". Нарешті я обійшов налаштування завантажувального сервера PXE в нашій мережі для задоволення конкретної потреби, і зауважив, що CD Ultimate Boot може бути завантажений PXE. Зараз у нас сидить кілька верстатів, які можуть базуватися на PXE для діагностики приводу.


3
Що ви знаєте? Відповідь, яка відповідає на питання і не проповідує на ОП. +1
elBradford

3
Якщо ви хочете, щоб випадкові дані записували на диск, не читайте з / dev / urandom; це не так повільно, як його блокує двоюрідний брат / дев / випадковий, але все одно повільний, і він насправді нічого не отримує від вас. Натомість встановіть звичайне dm-криптове відображення із випадковим ключем (який ви можете отримати з / dev / urandom або / dev / random), а потім просто dd / dev / zero у відображений на пристрої відображення. Це, мабуть, буде десь вдвічі швидше і на порядок швидше. gitlab.com/cryptsetup/cryptsetup/wikis/FrequentlyAskedQuestions "Як я можу стерти пристрій з випадковими криптовалютами?" є приклад того, як це зробити.
CVn

Відмінна пропозиція @ MichaelKjörling
Aaron C. de Bruyn

3

Наскільки важливо записати на жорсткий диск, перш ніж почати користуватися ним?

Це залежить.
Якщо ви використовуєте його в RAID, який забезпечує надмірність (1, 5, 6, 10)? Не надто.
Якщо ви використовуєте його автономно? Трохи, але вам краще просто запускати розумні або щось замість цього контролювати, принаймні, на мою думку.

Це, природно, призводить до моєї відповіді на тему " Як ви реалізуєте процес спалювання? " - Я цього не роблю.
Замість того, щоб намагатися «спалити» диски, я запускаю їх у надлишкових парах і використовую прогнозний моніторинг (як SMART), щоб сказати мені, коли накопичувач стає непростим. Я виявив, що додатковий час, необхідний для повного запису (реально виконувати весь диск), істотно дорожче, ніж боротьба з відмовою та заміною диска.
Поєднуючи RAID та добре створюючи резервні копії, ваші дані повинні бути дуже безпечними, навіть якщо мати справу з дитячою смертністю (або іншим кінцем ванни, коли ви починаєте з накопичувачами помирати від старості)


1
Що робити, якщо диск не можна контролювати, оскільки він знаходиться не в одному постійному місці? :)
jsmith

2
@jsmith - значить, ви надсилаєте вам сповіщення, а не запитуєте їх від монітору хоста - майже не буває ситуацій, коли ви справді не можете щось контролювати, є лише такі, які потребують трохи творчого мислення :)
voretaq7

2

Spinrite (grc.com) прочитає та запише всі дані на накопичувачі. Це добре робити для нового приводу, навіть якщо ви не намагаєтеся змусити його вийти з ладу. Тривати час на рівні 4 потрібно, як правило, пару днів для накопичувачів поточного розміру. Слід також додати, що це не руйнує. Насправді, якщо у нього є дані в поганих місцях, він переміститься та відновить їх. Звичайно, ви ніколи не запускали його на SSD.


1

Я впевнений, що один раз на тиждень бенчмаркінгу та перевірки помилок буде достатньо для «спалювання» жорстких дисків. Хоча з моєї посади я ніколи про таке не чув.

Цитується з "6_6_6" на Stroagereview.com

1. Connect the drive to a running system. Read SMART values.

2. Do a SMART short self test. Do a SMART long self-test.

3. Zero fill / Wipe the drive with the manufacturer's utility. Entire drive.

4. Run HDTach full read/write. Everest / Sandra, etc all have stress tests. Run hard drive part continously for hours.

5. Run Victoria for Windows Read/Write test and make sure no slow sectors.

6. Drop to DOS. Run MHDD, run a LBA test and see check for slow sectors. Run Read/Write/Verify test. Run drive internal ATA secure erase command.

7. Do a full format.

8. Compare SMART values. If no anomalies, all good to go. Install your OS and continue.

Взагалі, я особисто вважаю це поганою ідеєю.

EDIT: Scource: http://forums.storagereview.com/index.php/topic/27398-new-hdd-burn-in-routines/


0

По-перше, я погоджуюся з іншими плакатами, що ваш випадок використання говорить про те, що стрічкові накопичувачі будуть кращим варіантом.

Якщо це неможливо, якщо вам доведеться літати з накопичувачами по всій країні, справжній RAID, здається, не є варіантом, оскільки вам доведеться перевезти ще багато накопичувачів, збільшуючи ризик виходу з ладу. Однак як бути з простою схемою дзеркального відображення, надсилаючи один диск і зберігаючи інший на вихідному сайті?

Потім, якщо накопичувач не вдасться приїхати, нову копію можна зробити та надіслати. Якщо привід хороший при заїзді, запасні дані можуть бути використані повторно - для надсилання або для резервного копіювання оригінальних даних.


0

Ви насправді не говорили, чому диски постачаються - це лише спосіб передачі даних, чи є у них повноцінні програми / зображення ОС, готові до завантаження на ПК чи щось інше?

Я погоджуюся з іншими відповідями, що RAID або резервне копіювання краще, ніж сканування, через ризики доставки накопичувача, що викликає механічні проблеми.

Більш загальним способом цього було б "покладатися на надлишкові дані для лову та виправлення помилок" - або доставити 2 диски для кожного набору даних, або надлишкові дані на одному диску. Щось подібне до Parchive дозволяє додавати певний рівень надмірності даних, що дозволяє відновити, навіть якщо значна частина даних пошкоджена. Оскільки диски в наші дні досить дешеві, просто придбання більшого диска, ніж суворо вимагається, часто буде дешевше, ніж сканування накопичувача, доставка замінного диска або доставка двох дисків.

Це захистило б від не катастрофічних збоїв накопичувача - однак найкраще не використовувати повторно використаний накопичувач, крім доставки, як було запропоновано раніше, тобто переглядати його як стрічку, яку потрібно витягнути на "справжній" накопичувач, який постійно працює встановлений і не поставляється ніде.

Це повинно дозволяти вам надсилати велику кількість даних (або навіть зображень програми / ОС) та зменшувати вплив помилок диска на будь-який економічний рівень.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.