Що означає tw_cli 3Ware під "DEGRADED" диском проти "ECC-ERROR"?


10

У мене сумний RAID-масив на 3ware 9650SE-16ML-картці. Я не можу сказати, чи я щойно зазнав несправності з подвійним диском (облом!) Або чи читаю це неправильно. Відносний вихід /c0 show all:

Port   Status           Unit   Size        Blocks        Serial
---------------------------------------------------------------
p0     DEGRADED         u0     931.51 GB   1953525168    5QJ07MAH            
p1     ECC-ERROR        u0     931.51 GB   1953525168    5QJ0DCW9            
p2     OK               u0     931.51 GB   1953525168    5QJ0DW9C            
p3     OK               u0     931.51 GB   1953525168    5QJ0CKXJ            

А відмова (від show alarms):

Ctl  Date                        Severity  Alarm Message
------------------------------------------------------------------------------
c0   [Sun Nov 20 07:47:23 2011]  INFO      Rebuild started: unit=0
c0   [Sun Nov 20 08:20:12 2011]  ERROR     Drive ECC error reported: port=1, unit=0
c0   [Sun Nov 20 08:20:12 2011]  ERROR     Source drive error occurred: port=1, unit=0
c0   [Sun Nov 20 08:20:12 2011]  ERROR     Rebuild failed: unit=0
c0   [Sun Nov 20 08:20:12 2011]  INFO      Rebuild paused: unit=0

Я думаю, що те, що сталося, p0 не вдалося, і тоді у p1 сталася помилка ECC (ака, мої дані вже відсутні). Але ... може, ні? Він залишається на 97% перебудований, але не може подолати цю помилку.

Наскільки я можу сказати, попередній адміністратор відключив періодичну перевірку, і саме це призвело нас до цього стану. Це не те, чому більшість людей повинні турбуватися зі своїми 3Ware RAID!

Оновлення

Після побиття на ньому пару днів я зробив біт IgnoreECC і він відновився, але мої дані шлагуються. Бампер.


Спробуйте метод відновлення заморожувача, якщо на ньому є якісь важливі дані.
Chris S

Я не проти морозильної хитрості, але чи не для конкретного режиму відмови, не просто "мій диск загинув"?
Білл Вайс

Диск із позначкою DEGRADED є цільовим диском операції REBUILD.
wazoox

Відповіді:


7

Помилка ECC означає, що принаймні є один нечитабельний сектор. Однак, якщо вам пощастило, цей файл може фактично не використовуватися файловою системою, розміщеною на цьому томі, тому ви все одно зможете скопіювати свої дані з масиву в цьому стані.

Існує також кілька варіантів ігнорування помилок ECC під час відновлення:

/cx/ux start rebuild disk=p [ignoreECC]
/cx/ux set ignoreECC=on|off

Однак використання цих параметрів означає, що смуга RAID, постраждала від поганого сектору, буде зіпсована (не впевнений, що саме буде робити карта в цьому випадку - вона може замінити всю смугу нулями або навіть випадковими даними), тому " відновлений ”масив може насправді виявити пошкодження (якщо постраждала смуга знаходилася посередині якогось файлу даних). Копіювання даних з масиву в якесь інше місце перед спробою відновлення може бути безпечнішим (принаймні, ви повинні отримати помилки при спробі прочитати погану область).

Вам слід налаштувати планову перевірку масиву, щоб раніше зафіксувати нечитабельні сектори, щоб ви могли замінити диск, який щойно почав виходити з ладу.


Я зараз роблю біт ignoreECC. Не чудово підходить для моїх даних.
Білл Вайс

1
І так, ми мусимо час від часу дозволяти масивам перевіряти. Я буду припускати, що хлопець, який налаштував це, вимкнув це з міркувань продуктивності :(
Білл Вайс

Добре, що це було отримано за допомогою перебудови, але на моїх даних. Бампер. Це навчить нас вимикати перевірку ...
Білл Вайс

4

Я ніколи не відчував фізичний привід (p0), щоб перейти у стан DEGRADED, однак, можливо, ви зможете повернути диск ECC-ERROR або навіть DEGRADED диск, видаливши їх через

/c0 p1 remove

а потім видавати рескайн

/c0 rescan

повернути їх в рейд через

maint rebuild c0 u0 p1

SATA-накопичувачі, які не вдалися до мене з ECC-ERROR, я зміг воскреситись, навіть за кілька годин до того, як знову не вдасться.


3
Видалення накопичувача p1 у поточному стані, ймовірно, буде повністю шланг масиву.
Сергій Власов

Я зробив це з накопичувачем p0 (за припущенням, що це був поганий), і він намагається відновити, але це позначило диск як DEGRADED майже відразу. Бампер.
Білл Вайс

1
AFAIR, привід залишається маркованим як DEGRADED під час відновлення - див., Наприклад, тут . Важливим є стан масиву (ПОВТОРЕННЯ чи щось інше?).
Сергій Власов

Гм. Це насправді відбудова ... Всі чотири диски блимають сильно, це хороший знак, правда?
Білл Вайс

Перебудова Stiiiiiil ... це на 37% через 4 години. Бампер.
Білл Вайс

2

Цілком ймовірно, що ваших даних немає. Помилка ECC означає непоправну помилку під час читання з цього диска.

Якщо у вас немає резервної копії, ви можете спробувати скинути поточний стан масиву. Це можливо, тому що контролер не знає, втратив він дані або просто порожній ділянку (йому не вистачає розуміння файлової системи).

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.