RAID-5: два диски вийшли з ладу одночасно?


21

У нас є сервер Dell PowerEdge T410 під керуванням CentOS, з масивом RAID-5, що містить 5 SATA дисків Seagate Barracuda 3 TB. Вчора система вийшла з ладу (я не знаю, як саме і у мене немає журналів).

Після завантаження в BIOS контролера RAID я побачив, що з 5 дисків диск 1 був позначений як "відсутній", а диск 3 - "деградований". Я змусив диск 3 створити резервну копію і замінив диск 1 на новий жорсткий диск (того ж розміру). BIOS виявив це і почав перебудову диска 1 - однак він застряг на% 1. Індикатор прогресу обертання не зміщувався всю ніч; повністю заморожений.

Які тут мої варіанти? Чи є якийсь спосіб спробувати відновити, окрім використання професійної служби відновлення даних? Як два жорстких диска можуть вийти з ладу одночасно? Здається, занадто випадково. Чи можливо диск 1 вийшов з ладу, і в результаті диск 3 "вийшов із синхронізації?" Якщо так, чи є яка-небудь утиліта, яку я можу використати, щоб повернути її "синхронізовано?"


20
Так, великі сата-диски, як правило, роблять це. (Перебудова 3 ТБ займає багато годин, поки ви зазнаєте подвійних відмов). Тому цього очікується, і тому RAID-5 із застосуванням такої конфігурації абсолютно не рекомендується.
MichelZ

9
Справді. В ідеальному світі показники відмов приводу розподіляються випадковим чином. Практично цього не відбувається - вони, як правило, купуються з однієї партії і піддаються однаковим навантаженням, а це означає, що всі вони починають одночасно закінчувати життя. Раптовий зсув завантаження може досить легко перекрити кілька «через край», навіть до того, як ви почнете дивитися на невиправні показники помилок на дисках SATA. У будь-якому випадку - я боюся, що погані новини є, якщо ви не зможете отримати один з цих дисків в Інтернеті, саме час вимкнути резервні копії.
Sobrique


5
Я знаю, що зараз це не дуже допомагає, але просто FYI - загальний консенсус полягає в тому, щоб використовувати RAID6 для накопичувачів, більших за 1 ТБ (щонайменше, коли ми говоримо про 7200 об / хв).
pauska

2
RAID 5 дає толерантність, але це компромісний варіант - у вас стійкість N + 1, але якщо у вас великі диски, у вас є велике вікно, де може статися друга несправність. RAID-6 дає N + 2 відмовостійкості, що, як правило, вважається хорошим (шанси на потрійну несправність набагато нижчі). Однак ви також знайдете коефіцієнт відмов дорожчих дисків (наприклад, не дешевих накопичувачів SATA)
Sobrique

Відповіді:


24

Після того, як ви прийняли погану відповідь, мені дуже шкода моєї єретичної думки (що такі масиви врятували вже кілька разів).

Ваш другий збій диск має, мабуть, незначну проблему, можливо, збій блоку. Це причина, чому поганий інструмент синхронізації вашої поганої прошивки raid5 провалився на ньому.

Ви можете легко зробити копію на рівні сектора за допомогою інструменту для клонування диска низького рівня (наприклад, gddrescue , мабуть, дуже корисний), і використовувати цей диск як новий диск3. У цьому випадку ваш масив вижив із незначною пошкодженням даних.

Мені шкода, напевно, вже пізно, бо суть православної відповіді в цьому випадку: "багаторазовий збій у рейді5, ось апокаліпсис!"

Якщо ви хочете дуже хороший, зайвий наліт, використовуйте програмний рейд у Linux. Наприклад, його макет даних про суперблок рейду є загальнодоступним та задокументованим ... Мені дуже шкода, за мою цю чергову єретичну думку.


8
Ганьба, цей голос зменшився, він насправді намагається допомогти ОП виправити безлад на відміну від деяких інших. +1
Vality

3
@Vality він не намагається вирішити безлад, він розширює його проблеми. Наліт5 із пошкодженими блоками не дає кінця болю, оскільки він буде проходити перевірку цілісності, але регулярно погіршується. Також він не мав би поняття, які дані є корумпованими. Якби це було так просто, як виправити блок, це було б стандартним рішенням.
JamesRyan

4
@JamesRyan Я погоджуюся, що це спричинить пізніші проблеми, і я навіть згоден, що тут є основні проблеми. Однак він пропонує дійсне рішення щодо повернення певних функціональних можливостей, і оскільки ОП говорив про експертів із відновлення даних, я можу лише припустити, що вони не мають резервного копіювання, щоб повернути свої дані в іншому випадку. Зрештою, це рішення стане лише частиною першої виправлення, як тільки цей метод знову запустить систему, ви, ймовірно, захочете перенести файлову систему на 5 нових дисків, а потім важливо створити резервну копію.
Vality

1
"Ви могли легко зробити секторальну копію засобу блокної копії" Це дійсно те, що ви мали намір написати?
Арно Меурет

1
@MikeFurlender Я думаю, що апаратне забезпечення швидше, але фірмове і тому крихке, тому що вам потрібно отримати той самий контролер, якщо він не працює. Програмне забезпечення RAID не залежить від обладнання. Дивіться btrfs та zfs.
Мартін Удінг

38

У вас подвійний збій диска. Це означає, що ваші дані втрачені, і вам доведеться відновити з резервної копії. Ось чому ми не повинні використовувати рейд 5 на великих дисках. Ви хочете налаштувати рейд, щоб у вас завжди була можливість протистояти двох відмов диска, особливо з великими повільними дисками.


3
Існує дві проблеми з RAID5. Перший: час відновлення 3 ТБ за умови повільного накопичувача SATA може бути великим, що робить шанси на збій з’єднання високими. Інша - це невідшкодована швидкість помилок бітів - аркуш специфікації на більшості накопичувачів SATA має 1/10 ^ 14, що становить - приблизно - 12 ТБ даних. З 5-ти способом, 3B RAID це стає майже неминучим, коли потрібна відбудова.
Sobrique

1
Я використовую RAID5 на своєму накопичувальному масиві 3TB 5, я грав із отриманням другого масиву, щоб використовувати його як копію першого. Таким чином, для втрати даних знадобиться більше 1 диска, щоб вийти з ладу на обох масивах одночасно (тому мені знадобиться 4 диски), але все одно зберігаючи цю велику кількість для наявної ємності. Прочитавши це, я, можливо, тепер збільшив цей часовий період для отримання другого масиву.
Війна

1
На його диску, мабуть, є лише поганий блок3. Мені дуже цікаво, чому професійний сисадмін ніколи не чув про засоби копіювання на рівні блоку.
Peterh каже відновити Моніку

1
@ Wardy, не вдалося б набіг 6 дати це?
Василь

3
Не дуже корисна відповідь. Впевнені, що при подвійному відмові диска на RAID 5 шанс на відновлення не хороший. Але більшість помилок подвійного диска на RAID 5, ймовірно, є лише питанням одного несправного диска та кількох некоректованих помилок читання на інших дисках. Якщо це так, відновлення більшості даних все ще можливо за допомогою правильних інструментів. Покажчики на такі інструменти були б корисними.
kasperd

37

Ваші варіанти:

  1. Відновлення з резервних копій.
    • Ви робите резервні копії не так чи що? RAID - це не резервне копіювання.

  2. Професійне відновлення даних
    • Цілком можливо, хоча дуже дорого і не гарантується, що професійна служба відновлення зможе відновити ваші дані.

  3. Прийняття втрати даних та навчання на досвіді.
    • Як зазначається в коментарях, великі диски SATA не рекомендуються для конфігурації RAID 5 через можливість подвійного виходу з ладу під час відновлення, що спричинить збій масиву.
      • Якщо це повинен бути паритет RAID, RAID 6 краще, а наступного разу також скористайтеся гарячим запасом.
      • Диски SAS кращі з різних причин, включаючи більшу надійність, стійкість та менші показники непоправних бітових помилок, які можуть спричинити URE (непоправні помилки читання)
    • Як зазначалося вище, RAID не є резервним копією. Якщо дані важливі, переконайтесь, що вони резервні, і що ваші резервні копії перевірені відновленням.

1
Якщо у вас є 5 дисків (відповідно до ОП), і ви хочете отримати гарячу запчастину, то, звичайно, ви б взяли RAID10 за RAID6 ...?
jimbobmcgee

1
Ну, а для початку - ви використовуєте 4 шпинделя в RAID 1 + 0, щоб отримати 2 диски вартістю місця, залишивши один диск "запасним". Ви можете терпіти два невдачі (правильні два принаймні). RAID6 надасть вам 3 місця на варті диска, а також може допустити два відмови (будь-які два). RAID1 + 0 має кращу здатність до виконання, менший штраф, а також потенційно кращу ефективність випадкового зчитування (зчитування можна обслуговувати на будь-якому з двох шпинделів).
Sobrique

Для пункту 2. Відновлення даних. Професійне відновлення даних з RAID5 дозволяє вам легко запустити $ 20 тис. Крім того, ОП дозволить відновити роботу протягом ночі, підкресливши диск, що може спричинити відновлення важче або навіть неможливо. Просто повідомте вас про це достроково. Обов’язково надішліть усі диски.
OmnipotentEntity

4

Одночасний збій можливий, навіть ймовірний, з причин, які навели інші. Інша можливість полягає в тому, що один з дисків вийшов з ладу деякий час раніше, і ви не активно перевіряли його.

Переконайтеся, що ваш моніторинг негайно набирає обсяг RAID, що працює в деградованому режимі. Можливо, ви не отримали варіант, але ніколи не годиться вивчати ці речі з BIOS.


3
+1 для згадування про занедбаний моніторинг. Важливо помітити вже крок "нормальний" -> "критичний", а не крок "критичний" -> "несправний". Це стосується також усіх інших видів резервувань (резервна лінія інтернету, пиво в підвалі, запасна шина, ...).
Хаген фон Ейтцен

2

Відповісти: "Як два жорсткі диски могли вийти з ладу одночасно?" саме я хотів би процитувати цю статтю :

Суть аргументу полягає в цьому. Оскільки дискові накопичувачі ставали все більшими та більшими (приблизно збільшившись удвічі за два роки), URE (непоправна помилка читання) не покращилася з тією ж швидкістю. URE вимірює частоту появи непоправної помилки читання і, як правило, вимірюється помилками на прочитаний біт. Наприклад, швидкість URE 1E-14 (10 ^ -14) означає, що статистично помилка читання, яку не можна отримати, буде виникати один раз у кожному прочитаному біті 1E14 (1E14 біт = 1,25E13 байт або приблизно 12TB).

...

Аргумент полягає в тому, що по мірі зростання ємності диска, а швидкість URE не покращується з тією ж швидкістю, з часом збільшується можливість відмови відтворення RAID5. Статистично він показує, що в 2009 році ємність диска зросла б досить, щоб безглуздо використовувати RAID5 для будь-якого змістовного масиву.

Так, RAID5 виявився небезпечним у 2009 році. Що стосується RAID1, я почав робити їх з 3-х дисків. RAID10 з 4 дисками також є нестабільним.


3
Знову ж таки, RAID не є альтернативною резервною копією. Йдеться лише про додавання "буферної зони", під час якої диск можна замінити, щоб зберегти доступні дані ... доступними. Інший варіант полягає у використанні реплікації, яка вимагатиме відмови 2 масивів одночасно ... набагато менше, мабуть, я думаю.
Війна

Особисто мені не подобається мантра, що RAID - це не резервне копіювання. У словнику сказано: «людина, план, пристрій тощо, що зберігаються в резерві, щоб служити замінником, якщо потрібно». Якщо сума надмірності не буде достатньою, вона не зможе служити заміною. Якщо ви не переймаєтесь надмірністю, яку надає RAID, ви можете також не використовувати її. Що стосується того, що він не є заміною резервного копіювання за межами диска та за межами сайту, це зовсім інша справа, з якою я, звичайно, згоден.
Halfgaar

так що ви думаєте щодо тих, хто використовує смужки RAID без надмірності? в цьому випадку масив RAID використовується виключно для отримання переваг продуктивності, що, на мій погляд, є абсолютно правильним використання IMO. RAID виконує 2 цілі 1. забезпечити швидкість, згрупувавши диски, або 2. забезпечивши мережу безпеки у випадку, якщо n накопичувачів не вдається забезпечити, щоб дані все ще були доступні.
Війна

Кожен, хто впроваджує RAID, обрав би тип RAID, який він бажає використовувати, виходячи зі своїх потреб, швидкості, надійності або комбінації двох, але це все ще не робить RAID будь-якою формою резервного рішення.
Війна

1
Коли люди кажуть, що RAID - це не резервне копіювання, вони не говорять про доступність. Я думаю, ти просто граєшся зі словами. :)
gparent

2

Нитка стара, але якщо ви читаєте, зрозумійте, коли диск виходить з ладу в рейді, перевірте вік дисків. Якщо у рейдовому масиві у вас кілька дисків, і їм старше 4-5 років, велика ймовірність того, що інший диск вийде з ладу. *** Зробіть IMAGE або резервну копію **, перш ніж продовжувати. Якщо ви вважаєте, що у вас є резервна копія, протестуйте її, щоб переконатися, що ви можете її прочитати та відновити з неї.

Причина полягає в тому, що ви залишаєте роки звичайного зносу на решті дисках, коли вони крутяться на повній швидкості протягом кількох годин. Чим більше число 6-річних приводів, тим більше шансів, що інший привід вийде з ладу від стресу. Якщо це RAID5, і ви завантажуєте масив, чудово, що у вас є резервна копія, але на відновлення диска 2 Тб знадобиться 8 - 36 годин, залежно від типу контролера рейду та іншого обладнання.

Ми регулярно замінюємо весь рейдовий вулик на виробничих серверах, якщо всі диски старі. Навіщо витрачати час на заміну одного диска, а потім чекати, поки наступний не вийде через день, тиждень, місяць чи два. Як чіп, як накопичувачі, його просто не варто втрачати час.


1

Зазвичай при закупівлі накопичувачів у великої кількості у авторитетного торговельного посередника ви можете вимагати, щоб накопичувачі були різними партіями, що важливо з причин, зазначених вище. Далі, саме тому RAID 1 + 0 існує. Якби ви використовували 6 дисків в RAID 1 + 0, у вас було б 9TB даних з негайним надмірністю, де не потрібно перестроювати об'єм.


Де є дані, що свідчать про те, що частина використання приводів з різних партій - це не що інше, як міський міф? Також RAID 1 не захищає магічним чином від попадання в нечитабельні сектори під час відновлення. Якщо ви хочете захистити від цього, ви або перейдете на RAID 6, або на RAID 1 з 3-ма дзеркалами (що коштує дорого).
kasperd

1
@kasperd Я думаю, що питання, яке формує першу частину вашого коментаря, схоже на, хоча, очевидно, не зовсім таке, як: Чи слід «запустити» один диск нової пари RAID 1, щоб зменшити шанс подібного часу відмови? .
CVn

1

Якщо ваш контролер розпізнається dmraid (наприклад, тут ) на Linux, можливо, ви зможете використовувати ddrescue для відновлення невдалого диска до нового, а також використовувати dmraid для створення масиву замість апаратного контролера.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.