Відновлення з масиву пробитого RAID


10

ось моя ситуація.

У мене є сервер Dell з контролером Dell Perc 7i (Контролер LSI).

У мене був накопичувач, дайте мені попередження про відмову, тому я зателефонував їм у службу підтримки, і вони вийшли і замінили диск і масив відновили себе, досить стандартно.

Через два тижні у мене є ще один привід, який дає мені попередження про відмову. Я зрозумів, що це може бути погана партія накопичувачів або збіг тощо. Тому я звертаюся в службу підтримки та дивлюся більш детально. Я розумію, що на одному з інших накопичувачів були погані блоки, які не вийшли з ладу, і ці погані блоки були скопійовані під час відновлення. Тому зараз у мене погані блоки всюди, і вони повільно вбивають мій масив. Я виявив, що це називається пробитий масив.

Тому їх порадою було замінити всі диски, відновити масив та відновити з резервного копіювання. За винятком того, що у мене виникає ця проблема протягом декількох тижнів, це означає, що у мене резервні копії погані ... і якщо я відновлю з резервної копії з попереднього (місяць тому), то мені не вистачатиме даних про мою базу даних приблизно 4 тижні, які абсолютно неприйнятний для нашого офісу.

Моє запитання: чи хтось коли-небудь оговтався від чогось подібного, не втрачаючи даних або без цілого (викиньте це все у вікно і почніть спочатку)?

Я знайшов одне посилання, яке охоплювало мій сценарій, не впевнений, чи прояснює воно ситуацію: http://www.theprojectbot.com/raid/what-is-a-punctured-raid-array/

Будь-яка допомога чи напрямок буде вдячний! Як ви думаєте, хлопці?

Відповіді:


15

Ваша система, на яку я припускаю, все ще працює, тому найкраще зробити негайне резервне копіювання, скинути диски / масив, відновити та відновити з резервної копії.

Погані блоки не завжди означають, що резервні копії також погані. Якщо у вас не виникли жодних проблем із продуктивністю або пошкодженими файлами, тоді ваші резервні копії повинні бути достатньо повною для завершення відновлення.

Для тестування візьміть останню резервну копію та вивчіть найважливіші дані. Якщо це все ще недоторкано, ви, ймовірно, маєте гарну резервну копію.

На даний момент існує ризик, оскільки ви не можете бути на 100% впевнені, що ваші резервні копії хороші або резервне копіювання зараз не призведе до втрати файлу. Однак ваш масив врешті-решт вийде з ладу і примусить відновити все одно, тому це ваш єдиний реальний варіант.


Я бачу, зараз все, здається, працює нормально. Тож якщо я зараз зможу зробити повне резервне копіювання моєї системи, і я заміню диски, відновити масив та відновити повне резервне копіювання ... чи ризикую я повернутися з цим помилкою? Або мені краще перевстановити ОС та Програмне забезпечення та лише відновити бази даних, щоб мінімізувати ризик?
користувач72593

Неправильні блоки зазвичай не зустрічаються на рівні файлів. Я зробив би це, лише якщо ви знайшли пошкоджені файли.
Натан С

@NathanC У вас не виникають "погані блоки", ви отримуєте корумповані дані.
JamesRyan

@ user72593 Тільки тому, що ви сьогодні можете створити резервну копію файлів, це не означає, що вони не будуть бракувати частини. Єдиний спосіб побачити, що добре чи ні - це порівняти його з резервними копіями.
JamesRyan

1
@JamesRyan "Погані блоки" можуть бути в будь-якому місці диска, включаючи файли swap, temp або раніше використовувані, але тепер невикористані місця. Якщо диск має погані блоки, це не завжди означає, що дані були втрачені.
Натан C

8

Одразу в цей момент зробіть наступне:

  • Зупиніть обертання резервних копій або видалення старих для цієї системи. Ви хочете зберегти всі резервні копії, які у вас є.
  • Візьміть повну резервну копію сервера.

Сподіваємось, диски все ще досить хороші, щоб ваші дані були недоторканими, і ви не матимете жодних проблем із запуском нової повної резервної копії.

Потім скрапте ці диски та складіть новий масив RAID. Як тільки це буде готово, спробуйте відновити з резервної копії, яку ви взяли саме зараз. При будь-якій удачі це все, що вам потрібно зробити.

Якщо це не вдається, спробуйте наступну найдавнішу та наступну найдавнішу тощо. Не забудьте перевірити функціональність системи - тільки тому, що вона завантажується, не означає, що вона повністю працює. Зокрема, протестуйте бази даних на наявність корупції.

Якщо вам довелося відновити всю систему зі старої резервної копії, це нормально. Візьміть новітні резервні копії та відновіть лише файли бази даних та інші важливі файли. Перевірте їх, щоб переконатися, що вони працюють належним чином. Знову ж таки, якщо це не вдасться, спробуйте наступну найстарішу.

Використання цього процесу мінімізує втрату даних.


Я бачу, це відповідає на моє запитання. Тож поки моя резервна копія є непорушною, я добре, якщо ні, то ... я маю з цим боротися. Дякую.
користувач72593

4

Відповіді, надані Грантом та Натаном С, є чудовими щодо того, як слід діяти в роботі із резервними копіями / відновленням та вирішенням цілісності даних.

Ось дещо чіткіша деталь щодо обробки набору RAID, коли настає час відтворити віртуальний диск та відновити його із резервної копії:

  • Переконайтеся, що у вас є резервне копіювання даних
  • Видаліть наявний віртуальний диск; Після цього всі диски повинні відображатися в готовому стані
  • Відтворити новий віртуальний диск; Рекомендовані налаштування: адаптивне читання вперед, зворотне записування та кешування диска вимкнено
  • У вас повинен бути онлайн-віртуальний диск з фоновою ініціалізацією.
  • Продовжуйте відновлення з резервного копіювання; Фонова ініціалізація, як правило, складає близько 600 Гб / год для 7.2K шпинделів, тому дайте ініціативі почати, якщо відновлення резервного копіювання може працювати швидше, інакше програмне забезпечення для резервного копіювання може мати деякі проблеми із затримкою запису, коли під час не буде одразу доступно нове місце відновлювати.

Примітка . Якщо ви використовували RAID5, вам варто СЕРЕДОВО розглянути можливість використання RAID6 цього разу. RAID5 не є надійним для критичних даних для бізнесу відповідно до діючих стандартних галузевих практик для масиву такого розміру. Диски SATA / NL-SAS великої ємності також мають більший ризик виникнення URE під час відновлення, що призводить до проколу на зразок того, з яким ви маєте справу. RAID6 значно знижує цей ризик і, як правило, прийнятний для критичних даних з наявними на даний момент ємностями накопичувача.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.