RAID-6: краще замінити два мертвих диска одночасно або один за одним?


21

У нас є 16-привідний RAID-6, який має три проблемних диска. Двоє вже мертві, а третій - це попередження SMART. (Не забудьте, як воно потрапило в такий поганий стан.)

Очевидно, що ми хочемо замінити мертві диски до того, що все ще працює, але чи краще:

  1. замініть один мертвий диск, нехай відбудується відновлення RAID, потім замініть інший і нехай він знову відновлюється; або

  2. замінити обидва накопичувачі одразу і дозволити відновити обидва паралельно?

Інакше кажучи, чи швидше ми повернемося до стану надмірності, знову ввівши один привід чи два? Чи сповільнює відновлення двох приводів паралельно процес відновлення?

У випадку, якщо це має значення, контролер є 3ware 9650SE-16ML.


10
Перекресліть все, що у вас є, що можна перекреслити, і надішліть улюбленому $ божеству велику пожертву!
user9517 підтримує GoFundMonica

1
Чи можу я просто задати одне питання щодо цього; чи можете ви повідомити нас про ТОЧНУ виготовлення та модель диска в цьому масиві, будь ласка - якщо мої підозри виправдані, ви можете дуже добре побачити, що це питання стане корисним реферальним пунктом для майбутніх користувачів, які задають певні запитання. Дякую.
Chopper3

8
@Warren - AIEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE! Вони його вимкнули? Поганий JuJu мій друг! Цього разу вже пізно, але загалом кажучи, вимкнення накопичувачів (особливо якщо вони старіші накопичувачі, які тривалий час працювали та працюють) дає їм можливість викидати помилки під час прокрутки (і змусити контролера сказати "Так, той диск теж смажений ")
voretaq7

2
@ voretaq7: Я колись пересилав усі диски з коробки MSA-20 у пекло, вимикаючи його після ~ 3 років безперервного часу та безперервного використання. Ніколи більше цього не робитиму :-)
karatedog

1
Масив зараз налагоджується та відновлюється, тому я можу отримати точні моделі для тих, хто цікавиться. Оригінальні жорсткі диски були ST31000340NS, тобто вони є серверною версією того, про який просили Chopper3. Так це сумнозвісні провали або щось таке? (Нові - ST31000524NS.)
Warren Young

Відповіді:


27

!!!!! ОДИН !!!!!

Робіть один за одним, серйозно чувак, не думайте робити це будь-яким іншим поряд.

Все інше перевірить ваші повні навички відновлення системи.


3
Два пункти, які я хотів би додати до цієї відповіді, це: (1) МОЛИТВА (до будь-якого божества, що вам подобається) та (2) МОНИТОРИНГ, як тільки ви повернете все до безпечного стану (тож ви дізнаєтесь, коли накопичуються збої в майбутньому і зможете вирішити проблему проблема, перш ніж у вас виникнуть два з половиною відмови. Опціонально ви також можете налаштувати гарячий запас у масиві на майбутнє.
voretaq7

3
Або скористайтеся RAID 10 </stockanswer>
Chopper3

1
Re: молитва , без коментарів. :) Re: моніторинг , я виступаю за це роками; можливо, це запалить вогонь під кимось. Re: RAID-10 , занадто багато даних на торгах; коли вийшли 3 ТБ диска, ми не потроїли надмірність, ми зменшили кількість дисків на 1/3. Зітхнути. Re: гарячі запасні частини , ми робимо це тепер, коли накопичувачі достатньо великі, щоб це дозволяло, але саме цей сервер був 16 дисками у 16-ти дисковому корпусі, коли 1 ТБ-накопичувачі були найбільшими, що ви могли отримати, і нам справді потрібні були всі 14 наявних ТБ . Перехід на систему з 24 приводами не працював би; див. попередній. :)
Warren Young

2
Якщо накопичувачі вже вийшли з ладу, то немає ніяких причин тримати їх навколо - скоріше, я б очікував, що дві послідовні перебудови будуть більш напруженими для інших накопичувачів, ніж один.
Саймон Ріхтер

1
+1, Це. Незважаючи на те, що дві послідовні перебудови додають більше напруги і більше шансів спричинити збій третього диска, перш ніж закінчити обидва, це також швидша перебудова, і якщо маргінальний диск не вдасться під час відновлення 2-го диска, ви все одно залишаєтесь в Інтернеті. Тож найшвидший, найбезпечніший шлях до відмовного стану - це один за одним.
Джоель Коел

14

У вас є хороші, останні резервні копії? Якщо ви не вважаєте, що можете отримати їх у розумний час?

Я, чесно, буду більше стурбований тим, як вимкнути поганий диск в режимі офлайн під час відновлення, ніж будь-що інше - якщо ви вже кидаєте SMART помилки, ви знаходитесь там більше, ніж на півдорозі.

Моя пропозиція полягатиме в тому, щоб підтвердити резервні копії, а потім відновити один привід, щоб спробувати відновити стан, коли ви можете замінити помилки, що кидають SMART (спочатку мертві диски, останні помилки).

Якщо у вас немає резервних копій, це зйомка з лайном: резервне копіювання може створити достатньо м'яких помилок, щоб маргінальний диск виявився як невдалий, як це може бути спроба зробити перебудову.


2
Більшість або всі дані цього масиву є своєрідним кешем, щоб уникнути необхідності повторного витягування терабайт даних через повільне посилання. Ці дані кешу можна замінити, або завантажуючи їх протягом місяців (один раз), або пересилаючи їх на сайт, який можна скопіювати з іншого масиву. Отже, резервне копіювання - це не проблема. Те, що ми намагаємося запобігти, зберігаючи масив, - це дні та тижні простою, які доставляють сервер до сервісного депо, повторне заселення масиву та доставку його назад.
Warren Young

у такому випадку те, що сказав @ chopper3, - це майже Закон Землі: Перебудовуйте один привід за один раз і МОЖЕТЕ ДУЖЕ ДУЖЕ, що ви не відключаєте граничний диск в автономному режимі з додатковим завантаженням.
voretaq7

Фу - рада це почути.
Chopper3

0

Я не бачу сенсу змінювати це як "один диск за раз".

Очевидно, що якщо RAID здатний одночасно "переставляти" обидва диски ( які в будь-якому разі не вдалися ), ви виграєте лише те, що дозволить усьому RAID відновити свою здатність швидше витримати до 2 відмов .


-1

Мої 0,02. $

Оскільки сервер уже в автономному режимі, запустіть ddrescue на диску, який збирається вийти з ладу, клонувати його на інший, здоровий диск.

Потім замість цього помістіть новий, здоровий диск. Якщо клонування вдалося, ви уникнете ризику побачити помилку диска під час 2 відновлення.


Це апаратний RAID-контролер, окремі диски не адресовані.
Chopper3
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.