Чи може збій налаштування диска RAID 4, якщо вийшов з ладу лише 1 жорсткий диск? [зачинено]


9

Я веб-розробник. Я не маю великого досвіду в апаратному забезпеченні. З цієї причини я використовую керовані сервери.

Сьогодні вранці один із накопичувачів у нашій програмі вийшов з ладу. Однак повний сайт знизився. Я запитав свого веб-хоста про те, що сталося, і він відповів, що жорсткий диск вийшов з ладу таким чином, що контролер RAID не міг нормально працювати. Масив був налаштований як RAID 4.

Ви, колись, бачили це раніше? Це можливо?

Дякую за будь-яку допомогу в цьому хлопці. Мені потрібно знати, чи чесний мій веб-хостинг.


Якщо більше одного диска в масиві помирає, RAID не вдасться (хоча це залежить від налаштування RAID).
Rhys Evans

Коротка історія полягає в тому, що ваш постачальник - ****** і працює з дешевою стороною. Це може бути цілком прийнятно до тих пір, поки вас як замовника попередили, що його інфраструктура не спричиняє несправності та робить несправності приводу.
Лука404

Будь ласка, оновіть питання з типом рейду (тобто рейдом 0,1,4,5,6 тощо).
Тревор Бойд Сміт

Відповіді:


22

Швидше за все, ваш постачальник використовує жорсткі диски, які не призначені для використання в RAID. Нормальні споживчі накопичувачі SATA підпадають під цю категорію.

Ймовірна проблема полягає в тому, що накопичувач почав відчувати непоправні помилки читання (URE). Коли це відбувається на споживчому приводі, привід сидить там і повторює операцію зчитування (як правило, протягом 30-60 секунд), поки він не здасться. RAID буде чекати, коли накопичувач повідомить про помилку (30-60) секунд. Таким чином, простий запит для кількох секторів може легко призвести до зупинки сервера, тоді як невдалий диск перетирає ці операції повторного повторного читання.

Диски, призначені для RAID-масивів, мають або обмежене тимчасове відновлення помилок (для накопичувачів SATA). TLER швидко повідомляє про відмову контролерам, щоб контролер міг інтелектуально реагувати на такі збої (переважно розумно; сподіваємось). SCSI (теж SAS) працюють дещо інакше. Набір команд SCSI дозволяє контролеру задавати різні обмеження зусиль для відновлення на накопичувачах (РЕЖИМ ВИБІР: RW ERR RECOVERY). Контролер RAID повинен встановити, що накопичувачі швидко виходять з ладу, потім контролер може перевірити, чи привід вважає, що він працює належним чином з командою TUR, відмовити диск з масиву, якщо є умова перевірки.


Гарне пояснення.
sbrattla

11

Так, це можливо навіть у сценаріях, де ви могли б вважати, що масив мав би пережити невдачу.

Деякі можливості, чому масив не вдається:

  • Не вдалось отримати більше дисків, ніж це могло б підтримуватися режимом RAID. Наприклад:
    • RAID 0 (смугастий) не може пережити жодних відмов диска.
    • RAID 1 може пережити збої всіх, крім 1 диска.
    • RAID 4/5 може пережити 1 вихід з ладу.
    • RAID 6 може пережити 2 відмови диска.
    • RAID 10 може пережити вихід з ладу до 50% накопичувачів, залежно від виходу з ладу накопичувачів.
  • Помилка програмного забезпечення RAID або програмного забезпечення контролера.
  • Помилка користувача.
    • Хтось потягнув занадто багато дисків.
    • Хтось витягнув привід і ніколи його не замінив, а інший згодом вийшов з ладу.
    • Масив не контролювався, що дозволило вийти з ладу більше дисків, ніж можна було вижити.
  • Як правило, дешеві контролери з накопичувачами споживчих класів, як правило, не спрацьовують навіть у інших ситуаціях, що вижили.
    • Привід споживчого рівня майже безстроково намагатиметься прочитати поганий сектор, поки не отримає хорошого зчитування. Дешевий контролер майже нескінченно буде чекати, коли такий привід поверне результат. Очікування може бути настільки довгим, що операційна система здається. Тоді при перезавантаженні накопичувачі не реагують досить швидко на контролер, і масив вважається помилковим.
    • З іншого боку, накопичувач на рівні підприємства швидко відмовиться, дозволяючи контролеру витягувати дані з іншого накопичувача. Крім того, хороший контролер позначить накопичувач, який займає занадто багато часу, щоб реагувати як невдалий та рухатися далі.

1
RAID 1 повинен пережити смерть усіх, крім одного з накопичувачів у масиві. Зрозуміло, більшість людей, ймовірно, працюють із двома накопичувачами RAID 1, це означає, що він може пережити лише смерть одного диска, але це не властиво RAID 1.
CVn

Цікаво, тому якщо 1 диск в RAID 10 виходить з ладу, ви повинні зламати інший диск, тому що він не виживе, якщо зламається лише один диск :-) Я думаю, ви повинні відредагувати свою публікацію.
ЛЕТ

@ MichaelKjörling хороший момент. Я відредагував своє повідомлення.
longneck

@FLY ти правий, я заглянув над цією точкою. відредаговано.
longneck

RAID4 має бути RAID3. RAID3 - смуга байту з парністю; RAID4 - це реалізація ECC, яка потребує величезної кількості накопичувачів, які AFAIK ніколи не реалізовували.
Ден піднімається вогняним світлом

8

Якщо це була реалізація RAID 0, то, звичайно, коли один диск не вдасться, ви втратите масив і всі дані з ним.


Це реалізація RAID 4
Стів Родріг,

11
хахаха - ти мене мало не мав там, що це насправді?
Chopper3

3
@ Chopper3 NetApp використовує RAID4. Тож це не зовсім нечувано, хоча це теж дало мені посміятися. Можливо, таким чином хост говорить, що вони мають NetApp Filer або щось подібне.
HopelessN00b

1
@SteveRodrigue Ви впевнені, що це RAID 4?
MDMarra

1
Якщо це дійсно RAID4, і лише 1 накопичувач вийшов з ладу, тоді, як правило, слід було б встановити новий накопичувач і відновити масив. Можливо, веб-хост означав, що один із решти дисків не вдався, поки він намагався це зробити?
користувач3490

2

Я бачив, як помилки з вбудованим програмним забезпеченням виймають весь RAID, коли диск стає поганим або коли він починає повідомляти про неминучу помилку. Вибачте, у мене немає нічого конкретного, щоб на вас звернути увагу, але так, це може статися. Звичайно, це не частина специфікації RAID, це, безумовно, помилка.


1

Так, це можливо. Це не повинно статися, але, безумовно, може. Введіть URE (Unrecoverable error error) та помилки контролера та помилки мікропрограмного забезпечення тощо.

Без додаткової інформації (що ваш хост, ймовірно, не дасть вам), неможливо сказати однозначно так чи інакше, але кожен, хто працював з великою кількістю RAID-масивів, мав досвід, коли весь масив був загублений або розбився, коли він не повинен був.

(І, до речі, RAID4 не є дуже часто використовуваним рівнем RAID, але він повинен протистояти втратам будь-якого диска . Однак це не означає, що це завжди буде.)


1

У мене було багато збоїв на жорсткому диску, де не вийшла з ладу механіка, а електроніка, що складає комунікаційний інтерфейс. Через їх невеликі розміри багато компонентів електроніки дуже чутливі до навіть незначних електричних нерівностей (це може статися, коли великі двигуни з / під напругою поблизу включаються / вимикаються і т. Д., А джерело живлення трохи недорого).

Коли внутрішні перетворювачі або конденсатори накопичувача (буфери для зберігання енергії) накопичують електричні сигнали, що генеруються на зовнішніх роз'ємах жорсткого диска, можуть і відійдуть від специфікації. Оскільки накопичувач підключений до контролера за допомогою мідних проводів і часто на серверах багато накопичувачів поділяють кабельне з'єднання, щоб полегшити встановлення та зменшити безлад, це може легко порушити або навіть назавжди знищити будь-яку кількість сусідніх компонентів.

Це, до речі, мало спільного з ціноутворенням. Це правда, що дорогі контролери та приводи МОЖУТЬ використовувати деталі, більш толерантні до аномальних умов або кращого екранування, а також, що з бюджетними компонентами ви швидше отримаєте запчастини. Але я регулярно знаходив однакові конденсатори на накопичувачі 50 доларів і 500 доларів. І якщо невдалий жорсткий диск безпосередньо направляє 12 вольт від джерела живлення до роз'єму SATA через те, що щось не вистачає, ваш RAID-контролер буде обсмажений, незалежно від того, скільки цифр мала ціна.

Це не те, що зазвичай буває, але це, безумовно, нечувано в моєму досвіді.


"часто на серверах багато накопичувачів поділяють кабельне з'єднання" Не в сучасних середовищах SAS або SATA. Це досить астрономічно малоймовірно, що ваш сценарій - це те, що сталося тут; Я не думаю, що я ніколи не чув, щоб електроніка накопичувача вмирала і брала з собою інші компоненти. Хоча 12V, безумовно, смажить контролер SATA або SAS, логічні компоненти дуже рідко будь-яким чином підключаються до 12В, оскільки посилення напруги вниз від 12 до 3,3 або менше є дуже складним порівняно з джерелами 5 В або 3,3 В. Мені цікаво, де у вас може виникнути голова подібного роду речі; якщо ви готові поділитися?
Кріс С

1

Так, я думаю, весь рейд може вийти з ладу після однієї несправності диска. Перший несправний диск буде відключений контролером в режимі офлайн, і рейд все одно буде працювати нормально. Але коли невдалий диск замінено, контролер починає відновлювати рейд. Якщо на одному з інших решти накопичувачів є прихована невиявлена ​​проблема читання, відновлення несправного диска може призвести до того, що більше дисків перейде в офлайн (коли проблеми зчитування виявляються під час відновлення рейду) знову призведе до того, що весь рейд невдача.


Ось чому масиви RAID потрібно регулярно очищати, щоб виявити проблеми з читанням або записом.
Кріс С
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.