Формула для обчислення ймовірності непоправної помилки читання під час відновлення RAID

12

Я хочу порівняти надійність різних RAID-систем із споживчими (URE / біт = 1e-14) або підприємствами (URE / біт = 1e-15). Формула мати ймовірність успіху відновлення (ігноруючи механічні проблеми, які я врахую згодом) проста:

error_probability = 1 - (1-per_bit_error_rate) ^ bit_read

Важливо пам’ятати, що це ймовірність отримати НАЙКРАЩЕ одну УРЕ, не обов’язково лише одну.

Давайте припустимо, що ми хочемо використовувати 6 ТБ простору. Ми можемо отримати це за допомогою:

RAID1 з 1 + 1 дисками по 6 ТБ кожен. Під час відновлення ми зчитуємо 1 диск 6 ТБ, і ризик становить: 1- (1-1e-14) ^ (6e12 * 8) = 38% для споживача або 4,7% для корпоративних дисків.
RAID10 з 2 + 2 дисками по 3 ТБ кожен. Під час відновлення ми зчитуємо лише 1 диск об'ємом 3 ТБ (той, що поєднується з невдалим!), І ризик нижчий: 1- (1-1e-14) ^ (3e12 * 8) = 21% для споживача або 2,4% для підприємства приводи.
RAID5 / RAID Z1 з 2 + 1 дисками по 3 ТБ кожен. Під час відновлення ми зчитуємо 2 диски по 3 ТБ кожен, і ризик становить: 1- (1-1e-14) ^ (2 * 3e12 * 8) = 38% для споживача або 4,7% або корпоративних накопичувачів.
RAID5 / RAID Z1 з 3 + 1 дисками по 2 ТБ кожен (часто використовуються користувачами продуктів SOHO типу Synologys). Під час відновлення ми зчитуємо 3 диски по 2 ТБ кожен, і ризик становить: 1- (1-1e-14) ^ (3 * 2e12 * 8) = 38% для споживача або 4,7% або корпоративних накопичувачів.

Обчислити похибку для толерантності на одному диску легко, складніше - обчислити ймовірність із системами, толерантними до відмов декількох дисків (RAID6 / Z2, RAIDZ3).

Якщо для відновлення використовується тільки перший диск, а другий читається знову з початку у випадку або URE, то ймовірність помилки - це така, що обчислюється вище коріння (14,5% для споживача RAID5 2 + 1, 4,5% для споживача RAID1 1 + 2). Однак я припускаю, що (принаймні, у ZFS, у яких є повні контрольні суми!), Другий паритет / доступний диск читається лише там, де це потрібно, це означає, що потрібні лише декілька секторів: скільки URE може виникнути на першому диску? не багато, інакше ймовірність помилок для однодискових систем толерантності зросте навіть більше, ніж я порахував.

Якщо я маю рацію, другий диск з паритетом практично знизить ризик до надзвичайно низьких значень.

Питання осторонь, важливо пам’ятати, що виробники збільшують ймовірність URE для накопичувачів споживчого класу з маркетингових причин (продають більше накопичувачів корпоративного класу), тому очікується, що навіть жорсткі диски споживчого класу досягають 1E-15 URE / біт зчитування .

Деякі дані: http://www.high-rely.com/hr_66/blog/why-raid-5-stops-working-in-2009-not/

Значення, які я надав у дужках (корпоративні диски), тому реально застосовуються і до накопичувачів споживачів. А реальні приводи підприємств мають ще більшу надійність (URE / біт = 1e-16).

Що стосується ймовірності механічних відмов, вони пропорційні кількості дисків і пропорційні часу, необхідному для перебудови.

raid zfs rebuild

— FarO
джерело

1

Привіт Олафе! Наскільки я стурбований, це питання видається занадто специфічним для комп'ютерного обладнання, щоб добре підходити для математики , але ви можете запитати на їхньому мета-сайті, якщо вони хотіли б мати ваше питання. Якщо це так, поставте прапор ще раз, і ми будемо раді перенести його для вас!

— slhck

2

Як саме ви досягаєте 38% -ної ймовірності URE для RAID5 з 3-ма дисками? Використовуючи URE = 10 ^ 14, HDD = 3,5 * 1024 ^ 4 байти, я отримую 3,8% URE на диск і 11,1% для URE під час відновлення. Тобто: 100 * (1- (1- (hdd / ure)) ^ 3). Я думаю, що ваші цифри трохи знижені (хоча рівень практичної відмови вище, ніж заявлено виробниками). Оскільки показники помилок наведені на бітах, прочитаних на диск, а не на прочитаних бітах, я вважаю, що частина, де ви використовуєте ^ bit_read, неправильна. Можливо, дайте детальніше про те, як ви розраховували ці шанси? +1 за цікаве запитання. cs.cmu.edu/~bianca/fast07.pdf

— Ярослав Рахматуллін

Додана інформація та перевірені розрахунки.

— FarO

3

Це найкраща відповідь, і теорія ймовірностей також:

http://evadman.blogspot.com/2010/08/raid-array-failure-probables.html?showComment=1337533818123#c7465506102422346169

— FarO
джерело

2

Існує ряд сайтів та статей, які намагаються вирішити це питання.

На цьому сайті є калькулятори рівнів RAID 0, 5, 10/50/60.

У статті вікіпедії про рівні RAID є розділи про рівень відмов RAID 0 та RAID 1.

RAID 0 :

Надійність даного набору RAID 0 дорівнює середній надійності кожного диска, поділеній на кількість дисків у наборі:

Тобто надійність (вимірюється середнім часом до відмови (MTTF) або середнім часом між відмовами (MTBF)) приблизно обернено пропорційна кількості членів - тому набір з двох дисків приблизно наполовину надійніший, ніж один диск. Якби 5% була ймовірність того, що диск вийде з ладу протягом трьох років, у двох дискових масивах ця ймовірність збільшиться до {P} (принаймні один збій) = 1 - {P} (ні не виходить з ладу) = 1 - (1 - 0,05) ^ 2 = 0,0755 = 9,75%.

RAID 1 :

Як спрощений приклад, розгляньте RAID 1 з двома однаковими моделями дисковода, кожна з 5% -ною ймовірністю того, що диск вийде з ладу протягом трьох років. За умови, що відмови є статистично незалежними, то ймовірність виходу обох дисків протягом трирічного життя становить 0,25%. Таким чином, ймовірність втрати всіх даних становить 0,25% за трирічний період, якщо для масиву нічого не буде зроблено.

Також я знайшов кілька статей у блозі на цю тему, включаючи цю, яка нагадує нам про незалежні диски в системі (я в RAID), можливо, не є такою незалежною:

Наївна теорія полягає в тому, що якщо жорсткий диск 1 має ймовірність виходу з ладу 1/1000, а також диск 2, то ймовірність обох помилок становить 1/1000000. Це передбачає, що збої є статистично незалежними, але вони не є. Ви не можете просто примножувати такі ймовірності, як тільки невдачі не співвідносяться. Неправильно вважати незалежність - це звичайна помилка у застосуванні ймовірності, можливо, найпоширеніша помилка.

Джоел Спольський прокоментував цю проблему в останньому подкасті StackOverflow. Коли компанія створює RAID, вони можуть захопити чотири чи п’ять дисків, які зійшли з конвеєра разом. Якщо на одному з цих дисків є незначний недолік, який призводить до його виходу з ладу після скажімо 10000 годин використання, швидше за все, вони це роблять. Це не просто теоретична можливість. Компанії спостерігали партії дисків, які вийшли з ладу приблизно в один і той же час.

— Бред Паттон
джерело