Я хочу порівняти надійність різних RAID-систем із споживчими (URE / біт = 1e-14) або підприємствами (URE / біт = 1e-15). Формула мати ймовірність успіху відновлення (ігноруючи механічні проблеми, які я врахую згодом) проста:
error_probability = 1 - (1-per_bit_error_rate) ^ bit_read
Важливо пам’ятати, що це ймовірність отримати НАЙКРАЩЕ одну УРЕ, не обов’язково лише одну.
Давайте припустимо, що ми хочемо використовувати 6 ТБ простору. Ми можемо отримати це за допомогою:
RAID1 з 1 + 1 дисками по 6 ТБ кожен. Під час відновлення ми зчитуємо 1 диск 6 ТБ, і ризик становить: 1- (1-1e-14) ^ (6e12 * 8) = 38% для споживача або 4,7% для корпоративних дисків.
RAID10 з 2 + 2 дисками по 3 ТБ кожен. Під час відновлення ми зчитуємо лише 1 диск об'ємом 3 ТБ (той, що поєднується з невдалим!), І ризик нижчий: 1- (1-1e-14) ^ (3e12 * 8) = 21% для споживача або 2,4% для підприємства приводи.
RAID5 / RAID Z1 з 2 + 1 дисками по 3 ТБ кожен. Під час відновлення ми зчитуємо 2 диски по 3 ТБ кожен, і ризик становить: 1- (1-1e-14) ^ (2 * 3e12 * 8) = 38% для споживача або 4,7% або корпоративних накопичувачів.
RAID5 / RAID Z1 з 3 + 1 дисками по 2 ТБ кожен (часто використовуються користувачами продуктів SOHO типу Synologys). Під час відновлення ми зчитуємо 3 диски по 2 ТБ кожен, і ризик становить: 1- (1-1e-14) ^ (3 * 2e12 * 8) = 38% для споживача або 4,7% або корпоративних накопичувачів.
Обчислити похибку для толерантності на одному диску легко, складніше - обчислити ймовірність із системами, толерантними до відмов декількох дисків (RAID6 / Z2, RAIDZ3).
Якщо для відновлення використовується тільки перший диск, а другий читається знову з початку у випадку або URE, то ймовірність помилки - це така, що обчислюється вище коріння (14,5% для споживача RAID5 2 + 1, 4,5% для споживача RAID1 1 + 2). Однак я припускаю, що (принаймні, у ZFS, у яких є повні контрольні суми!), Другий паритет / доступний диск читається лише там, де це потрібно, це означає, що потрібні лише декілька секторів: скільки URE може виникнути на першому диску? не багато, інакше ймовірність помилок для однодискових систем толерантності зросте навіть більше, ніж я порахував.
Якщо я маю рацію, другий диск з паритетом практично знизить ризик до надзвичайно низьких значень.
Питання осторонь, важливо пам’ятати, що виробники збільшують ймовірність URE для накопичувачів споживчого класу з маркетингових причин (продають більше накопичувачів корпоративного класу), тому очікується, що навіть жорсткі диски споживчого класу досягають 1E-15 URE / біт зчитування .
Деякі дані: http://www.high-rely.com/hr_66/blog/why-raid-5-stops-working-in-2009-not/
Значення, які я надав у дужках (корпоративні диски), тому реально застосовуються і до накопичувачів споживачів. А реальні приводи підприємств мають ще більшу надійність (URE / біт = 1e-16).
Що стосується ймовірності механічних відмов, вони пропорційні кількості дисків і пропорційні часу, необхідному для перебудови.