Що таке некритичний сервер? Той, що може провалитись?
Оперативна пам'ять ECC є основоположною, коли надійність пам'яті є основою.
Зі збільшенням розмірів пам'яті зростають дві речі:
- надійність програмного забезпечення на пам'ять, особливо серверне програмне забезпечення (візьмемо, наприклад, кешування)
- ймовірність помилки пам'яті (p = num_bits * p_bit_failure)
Ця інформаційна презентація на ECC повідомляє про наступні факти:
- Середня швидкість помилки пам'яті для сервера з 4 Гб оперативної пам’яті 24x7 становить 150 разів на рік
- ~ 4000 виправних помилок на модуль пам'яті на рік
- Розгін і вік системи значно підвищують рівень відмов
- Постійні збої часто зустрічаються і трапляються швидко (97% трапляються протягом 10 днів після першої відмови) => ефект лавини
- Для сервера ECC, який має тривалість життя від 3 до 5 років, ймовірність відмови системи з помилкою помилки, що не може бути виправлена, становить менше 0,001%
Ще одне нещодавнє дослідження WISC показує, що ECC є важливим для цих систем ZFS:
ZFS не має запобіжних заходів щодо пошкодження пам'яті: погані блоки даних повертаються користувачеві або записуються на диск, операції з файловою системою завершуються збоєм, і багато разів вся система виходить з ладу.
Важливо зазначити, що інші файлові системи настільки ж чутливі до цієї форми пошкодження даних, як і ZFS.
ECC - це те, що рятує вас від виникнення цих проблем, коли це можливо, і у катастрофічних випадках, те, що попереджає вас про це, перш ніж пізно.