Що вважається "великим" рейдовим масивом 5?


11

Нещодавній випуск з NASA Buffalo TeraStation тут, в моєму кабінеті, змусив мене розслідувати рейд 5

Я знайшов кілька різних статей, які розповідають про непридатність використання рейду 5 у великих масивах або на великих дисках

Ось одна із прикладних статей, яка розповідає про проблеми з перебудовою масиву з великими накопичувачами споживачів.

Я намагаюся розробити те, що вважається "великим"?

NAS у нас є 4-х накопичувальна програма Raid 5, кожен диск - 1 ТБ. Помилка накопичувача та його замінено, масив наразі відновлюється.

Чи є ця установка такою великою, з точки зору, ймовірно, буде проблеми під час перебудови?

Наскільки надійні такі налаштування для щоденного використання?


2
Зважаючи на ваше звичайне завантаження системи, як довго очікується перезавантаження контролера? Що таке MTBF жорстких дисків? Одне у вас є ці два числа, ви знаєте шанс на другий - і катастрофічний - збій під час відновлення RAID. Майте на увазі, що жорсткі диски найбільше піддаються під час перебудови, тому результат вище буде недооцінкою шансу подвійного виходу з ладу.
MadHatter

3
Як осторонь ви знаєте, що RAID - це не резервне копіювання, правда?
cjc

5
@cjc, ти додаєш цю перлину мудрості до кожного окремого питання про RAID в SF, чи щось із цього примушує ти вважати, що ОП вважає, що RAID - це резервна копія?
BlueCompute

Так, я це знаю. Це все підкріплено, я щойно хотів, щоб хотіти клопоту відновити все це, тому що рейдовий масив не відновився належним чином.
Роб

Відповіді:


18

Проектування надійності дискового масиву:

  1. Знайдіть швидкість URE вашого накопичувача (виробники не люблять говорити про збій своїх дисків, тому вам, можливо, доведеться копати, щоб знайти це. Це має бути 1/10 ^ X, де X зазвичай становить близько 12-18).
  2. Вирішіть, яка є прийнятна норма ризику для ваших потреб зберігання †. Як правило, це <0,5% шанс виходу з ладу, але він може становити кілька відсотків у сховищі "подряпини" і може становити <0,1 для критичних даних.
  3. 1 - ( 1 - [Drive Size] x [URE Rate]) ^ [Data Drives‡] = [Risk]
    Для масивів з більш ніж одним диском паритетності або дзеркалами з більш ніж парою дисків у дзеркалі змініть 1після Disks in Array на кількість дисків з парністю / дзеркалом.

Таким чином, у мене є набір з чотирьох накопичувачів 1DB WD Green в масиві. Вони мають коефіцієнт URE 1/10 ^ 14. І я використовую їх для зберігання подряпин. 1 - (1 - 1TB x 1/10^14byte) ^ 3=> 3.3%ризик невдалого відновлення масиву після того, як один диск відмирає. Вони чудово підходять для зберігання мого сміття, але я не вкладаю тут важливих даних.

† Визначення прийнятного відмови - це довгий і складний процес. Його можна узагальнити як Budget = Risk * Cost. Отже, якщо збій буде коштувати 100 доларів США і має 10% шансів на те, щоб уникнути цього, у вас повинен бути бюджет 10 доларів. Це значно спрощує завдання визначення ризику, витрат на різні збої та характер потенційних методів профілактики - але ви розумієте. [Data Drives] = [Total Drives] - [Parity Drives]. Двоє дискових дзеркал (RAID1) і RAID5 мають 1 привід парності. Три дискового дзеркала (RAID1) і RAID6 мають 2 накопичувачі. Можливо мати більше накопичувачів паритету з RAID1 та / або спеціальними схемами, але нетиповими.


Це статистичне рівняння має застереження, однак:

  • Цей коефіцієнт URE є рекламованим тарифом і зазвичай кращий у більшості дисків, що котяться зі збірної лінії. Можливо, вам пощастить і придбати накопичувач, який на порядок краще, ніж рекламований. Так само можна отримати привід, який помирає від дитячої смертності.
  • Деякі виробничі лінії мають погані пробіги (де багато дисків під час виконання виходять з ладу одночасно), тому отримання дисків від різних виробничих партій допомагає розподілити ймовірність одночасного виходу з ладу.
  • Старіші диски швидше загинуть під напругою відновлення.
  • Екологічні фактори приймають своє значення:
    • Диски, які зазвичай циклічно нагріваються, швидше загинуть (наприклад, регулярно включають / вимикають).
    • Вібрація може спричинити всілякі проблеми - дивіться відео на YouTube із ІТ, що кричить на дисковому масиві .
  • "Існує три види брехні: брехня, проклята брехня і статистика" - Бенджамін Дізраелі

Привід, який я взяв / вийшов / з пристрою, - це привід Samsung HD103SI 1 Тб. Я вважаю, що інші три диски, що залишилися, однакові. Замінний привід від іншого виробника, я не маю деталей в руці.
Роб

Здається, швидкість цього диска становить 1/10
Rob

1
Я просто виправив рівняння, приклад був правильний, тепер вони обоє є. Ваш масив буде 1-(1-1099511627776*0.000000000000001)^3=> 0,00329. У вас дужка з зовнішньої сторони, ^3де вона повинна бути з внутрішньої сторони; і в цій речі 1/10 ^ 15 має бути ще один нуль.
Chris S

2
Привід 1 Тб складе 1000000000000 байт, тому він працює трохи менше 3% | 0,3% залежно від вашої швидкості URE.
користувач9517

1
@IanRingrose Це статистично справедливо. Я вже вирішив ваші конкретні проблеми. Чи є щось додаткове додати, крім того, що вже було заявлено?
Chris S

9

Причина існування цієї статті полягає в тому, щоб звернути увагу на невідновні показники помилок бітів на жорстких дисках. Зокрема, ваші дешеві диски "домашнього ПК". Зазвичай вони мають заводські характеристики 1/10 ^ 14. Це приблизно 12,5 ТБ даних, які, якщо ви робите RAID-5 з 2 ТБ дисками ... ви потрапляєте досить швидко.

Це означає, що вам слід:

  • використовувати менші групи RAID та приймати більше витраченого простору.
  • Використовуйте RAID-6 і приймайте додатковий штраф за запис. (На 50% вище, ніж RAID5)
  • Купуйте дорожчі диски - "клас сервера" має специфікацію UBER 1/10 ^ 16, а це означає, що це суперечка. (1.2PB краще, ніж 12.5TB)

Я б зазвичай запропонував, що RAID-6 - це шлях вперед, але це коштуватиме вашої продуктивності.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.