Заміна жорстких дисків [закрито]


19

Мені було цікаво, чи варто замінити жорсткий диск на (досить) критично важливому для системи сервері баз даних через певну кількість років використання, перш ніж він помре.

Наприклад, я думав замінити жорсткий диск через 3 роки використання. Оскільки у мене є багато жорстких дисків на серверах, я можу вражати, які жорсткі диски замінюються.

Це гарна ідея, чи люди просто чекають невдачі?

Відповіді:


33

Google провів дослідження дискових накопичувачів і виявив дуже малу кореляцію між віком диска та відмовою. SMART тести також не показують збоїв.

Мої локальні спостереження (> 500 серверів) схожі. У мене нові диски швидко виходять з ладу, тоді як старі ще чубаються.

Моє загальне правило: якщо ми побачили проблеми з диском (SMART або системні помилки), ми їх заміняємо негайно. Якщо ні, то диски вимикаються, коли сервер робить.

Google Study http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/en/us/archive/disk_failures.pdf


Це взагалі те, про що я думав, але хотів подивитися, що роблять інші. Спасибі
Гарфонцо

2
Я згоден. Ми спостерігаємо набагато вищі показники відмов у нових 2,5-дюймових SAS-накопичувачах, ніж у 10-річних серверів із 3,5-дюймовими 9-дюймовими SCSI накопичувачами!
Джеймс О'Горман

@ JamesO'Gorman Виробничі процеси змінюються ... змушує мене замислитися, що було зроблено з новими накопичувачами в рамках деяких інженерних "компромісів".
Евері Пейн

1
Microsoft Technet також має статтю про відмовостійку, яка коротко торкається виходу з ладу жорсткого диска / механічних компонентів ( technet.microsoft.com/en-us/library/bb742464.aspx ) - Вони трохи розповідають про "криву ванни", яка механічна збої компонентів мають тенденцію слідувати.
voretaq7

@AveryPayne Re нові диски, зверніть увагу , що 2,5 "накопичувачі мають набагато більш жорсткі допуски - в результаті того, що раніше" прийнятний "механічна відстійні на 3,5" диска може привести до катастрофічного руйнування на диску 2.5 "Дивіться також TechNet стаття Я розповів про криву ванни - Механічні компоненти, як правило, страждають від високої смертності немовлят, а потім є відносно стабільними, поки нарешті не помруть від "старості". Приводи 2,5 "все ще знаходяться на території" дитячої смертності "- за моїм досвідом роботи в не менше 1 року експлуатації.
voretaq7

13

Ні.

Однією з найбільших проблем із заміною жорсткого диска на активному сервері виробництва є те, що це призведе до відновлення. Особливо, якщо ви використовуєте RAID5, і особливо якщо ви використовуєте великі накопичувачі, примушування відновлення створює дуже значний ризик непоправного помилки. Ризик втратити масив під час відновлення набагато більший, ніж ризик залишити 3-річний диск на місці.

Беручи крайній приклад, якщо ви послідовно замінюєте кожен диск у 6-дисковому масиві RAID5, що складається з 2-ти дискових дисків, ваш теоретичний ризик непоправної помилки читання під час однієї з відновлень становить близько 58% (згідно з моєю математикою на серветці; будь ласка, зробіть своє та порівняйте нотатки). Іншими словами: ваша «профілактична» заміна диска фактично є не чим іншим, як саботажем.

Єдиний час, коли я б розглядав можливість оновлення накопичувачів на старому сервері, це було б "оновлення" його, наприклад, після того, як він був знятий з одного завдання і перед тим, як повернути його в експлуатацію з новою роллю. Навіть у цей момент вимоги до ємності та продуктивності будуть набагато важливішими, ніж вік приводів.


1
+1 для запуску перебудови
gregmac

Чи можете ви поясніть, чому ризик становить 58%? Якщо диск регулярно патрулюється, чому це підкреслить більше відновлення?
Мірча Вутковичі

@MirceaVutcovici, тому що в режимі RAID-5 всі диски будуть постійно активними під час відновлення порівняно з випадковими випадковими пошуками тут чи там. Іншими словами, "навантаження" на всі накопичувачі зростає, і при цьому ви збільшуєте ризик запуску 2-го невдалого диска.
Евері Пейн

@Avery Payne Я знаю, що ви більше напружуєте диски під час відновлення. Я намагаюся зрозуміти, чому перебудова підкреслить диски більше, ніж перевірка стійкості.
Мірча Вутковичі

@MirceaVutcovici Точна цифра (і як робити математику) є дискусійною, але суть полягає в тому, що ви повинні прочитати 10 терабайт даних шість разів , без переваги паритетного диска, щоб виправити помилки читання, щоб виконати шість перебудов. Імовірність зчитування 60 терабайт даних, без помилок, зовсім не на вашу користь.
Skyhawk

3

Я цього не бачив. Ми тримаємо сервери під гарантією до тих пір, поки вони не вийдуть з виробництва - 5 років. Стандартний RAID 5 дозволяє пережити диск з ладу, тому ми просто тримаємо пару дисків під рукою, щоб ми могли розпочати відновлення відразу та на критичних серверах, ми включаємо гарячу обробку або переходимо на RAID 10.

Якщо ви помітили, що кілька дисків виходять з ладу останнім часом на сервері у вас може виникнути проблема із планією. Можуть бути нові вібрації чи пил із сусідньої конструкції.


Це не зовсім вірно. якщо велика кількість ваших дисків з однієї партії, ви ризикуєте одночасно вийти з ладу при додаванні напруги від відновлення. Як зазначається в іншій відповіді, збільшувані розміри RAID5 призводять до збільшення ймовірності URE під час відновлення, що підводить ваш масив нижче порогового значення raid5.
Магеллан
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.