Середній час відмови (MTTF): Коли виробники дисків публікують це, як слід інтерпретувати їх кількість?


10

Середній час виходу з ладу (MTTF), як правило, приводиться в години, і, роблячи деякі розрахунки, здається, що диск повинен вийти з ладу лише після того, як пройшло чимало років.

Здається, що диски потребують ремонту частіше за все. Хтось знає, чому це так?

Я подумав, що в цьому показнику є щось рибне. Чи трактую тут щось не так?

Відповіді:


14

По-перше:

MTTF = Середній час відмови
MTTR = Середній час для
відновлення MTBF = Середній час між помилками = MTTF + MTTR

MTBF часто більш-менш дорівнює MTTF, оскільки ремонт може зайняти годину, а MTTF може становити десятки тисяч годин. Але також MTBF часто не застосовується, оскільки несправні вироби не піддаються ремонту, а просто замінюються, оскільки ремонт коштує більше, ніж заміна.

Обчислення MTTF - це складний статистичний метод, що включає підрахунок шансів невдачі кожної окремої частини. І це не лінійна річ, як люди іноді припускають. Якщо у вас MTTF 1000 000 годин, це не означає, що в 1000 пристроях через 1000 годин вийде один з ладу, або ви отримаєте збій у 1000 000 пристроїв через 1 годину.
Багато електронних пристроїв дотримуються "кривої ванни" ,

введіть тут опис зображення

там, де є багато невдач на ранніх стадіях, то довгий час з майже будь-якими збоями, і наприкінці життя кількість відмов знову зростає. У жорстких дисках також є деякі механічні частини, які мають більш лінійну криву відмов; це повільно піднімається з першого дня.

Якщо, наприклад, виробник заявляє про 1000 000 годин MTTF (це найчастіше POH, або години включення ), це означає, що в середньому привід повинен тривати> 100 років. Деякі накопичувачі триватимуть довше, інші виходять з ладу раніше. Отже, незважаючи на 1000 000 годин, цілком можливо статися збою через 1000 годин. У мене одного разу привід вийшов з ладу протягом тижня, і тоді вам доведеться подумати про криву ванни. Замінний привід радісно обертається більше 50 к. Годин.


3
Дещо, що варто відзначити, може бути тим, що ранні збої часто називають згорянням. Виробники, які мають значно менші ранні помилки, часто запускають пристрої через фазу згоряння. Крім того, що чиста електроніка не демонструє періоду зносу, а лише горіння.
Кортук

1
Зауважте, що під час обчислення MTTF (або MTBF), ви зазвичай використовуєте лише один розподіл для моделювання відмов. Тому розрахунок або ґрунтується на "немовляті немовляти", "нормальному житті", або на розподілі "зношеності до кінця життя". Єдине, що відрізняє ці три розподіли - це параметр форми Weibull, якщо ви використовуєте Weibull як основний розподіл. Єдиний випадок, коли невдачі виходили б із розподілу «нормального життя», коли час не впливав би на рівень відмов, і тому розподіл був би експоненціальним.

2
MTTF в першу чергу корисний як вказівка ​​на те, яке життя ви повинні очікувати від пристрою чи віджета. Зі зрозумілих причин це не може бути точним прогнозуванням дати виходу з ладу пристрою. Це лише оцінка, заснована на статистичному аналізі наявних даних, і її слід розглядати лише як таку. Корисний для складання бюджету (як довго я повинен тут амортизувати або знецінювати витрати) та планування (як довго ми можемо очікувати виконання віджету, перш ніж нам доведеться отримати наступний).
music2myear

По-перше, що саме таке "збій диска"?
Кейтлін Макморджі

2
@Kaitlyn - я думаю, ви маєте на увазі погані сектори. Я б сказав, що збій диска - це коли ви більше не можете читати або записувати на привід. Зазвичай механічна помилка, як удар у голову. Зазвичай це трапляється, коли у вас ще залишається багато хороших секторів.
stevenvh

4

Якщо обладнання має використання MTBF в розмірі 1 000 000 годин, це не означає, що будь-яке обладнання може тривати 1 000 000 годин. Це, скоріше, означає, що якщо 1 000 000 одиниць обладнання, які знаходяться в межах норм експлуатаційного терміну, кожен експлуатується протягом однієї години, або 100 000 штук, що експлуатуються протягом десяти годин (але все ще протягом номінального терміну служби), або 60 000 000 за одну хвилину тощо. буде приблизно один збій у партії. Зауважте, що термін служби служби є повністю ортогональним для MTBF. Розглянемо наступні два типи віджетів:

  1. Кожен віджет, незалежно від віку, має 0,1% шансу вийти з ладу щогодини.
  2. З кожного мільярда віджетів усі, крім одного, працюватимуть точно 61 хвилину, а потім помруть; той помре через 30 хвилин; у віджетів вказаний термін служби 60 хвилин.

Перший тип віджетів матиме середній термін служби близько 1000 годин, а також має MTBF близько 1000 годин. Другий мав би середній час життя 61 хвилину, але MTBF становить 1 000 000 000 годин протягом свого терміну служби. Хоча може здатися дивним, що другий пристрій має MTBF, що майже в мільярд разів більше, ніж очікуваний термін експлуатації, MTBF навряд чи є безглуздою цифрою.

Припустимо, один з них проведе експеримент, який вимагає, щоб 1 000 000 пристроїв працювали ідеально протягом години, після чого всі вони будуть зняті. Якщо якийсь пристрій вийде з ладу, весь експеримент буде зіпсований. Що було б корисніше - пристрій, який триватиме в середньому 1000 годин, але має MTBF всього 1000 годин, або пристрій, який триватиме не більше 61 хвилин, але матиме лише шанс на мільярд мільйонів невдач зустріти цю позначку?


Отже, суть полягає в тому, що ми не повинні розглядати MTBF 10 ^ 6 годин як "середній термін служби" будь-якого конкретного диска, а як міру, що стосується тривалості життя декількох дисків?
Kaitlyn Mcmordie

@Kaitlyn Mcmordie: Термін "все життя" насправді не застосовується; смерть не означає невдачі, ні навпаки. Виробник пристрою зберігання даних може визначати процедури, яких слід дотримуватися, щоб уникнути втрати даних; такі процедури можуть включати переміщення всіх даних із будь-якого пристрою, що вказує на "невідкладну невдачу" на новий пристрій (після копіювання даних старий пристрій вважатиметься "мертвим"). Якщо від такої події не відбувається втрата даних, це не збій. Втрата даних, яка виникає з будь-якого пристрою, однак навіть, здавалося б, здорового, - це збій. Нічого спільного з життям.
supercat

2

Додаючи відповідь stevenvh: Всі відомі виробники дисків усі роблять запуск нових пристроїв, як і виробники електронних компонентів. На жорстких дисках є не лише загальна MTBF та MTTF, але й індивідуальна статистика відмов для блоків дисків. Іншими словами: Деякі частини спінінгу, "блюдо" на диску можуть вийти з ладу, в той час як більшість все ще читає / пише нормально. Так звані "погані сектори" можна виявити, а потім відобразити за допомогою мікропрограмного забезпечення всередині накопичувача.

Всі приводи сьогодні містять додаткові сектори в резерві, які потім можуть бути використані замість дефектних секторів. Це просто обережність від виробника: Якщо вони цього не зробили, вони не змогли продати диск із заявленою потужністю. Якщо вони будують додатковий х% прихованих секторів як резерв, вони збільшують вартість на деяку <x%, але досягають набагато більшого загального врожаю виробництва.

Сьогодні на дисках зберігається кількість поганих секторів, які також можна прочитати за допомогою відповідного програмного забезпечення. Цей та інші параметри здоров'я диска (наприклад, температура) називаються значеннями SMART .

Тепер, коли виробник зробив тест накопичувача накопичувача, а деякі сектори майже відмовились і були перекомпоновані внутрішньою прошивкою диска, параметр SMART "Bad Sector Count" встановлюється на 0. Потім привід доставляється клієнтам.

Зазвичай після закінчення процесу горіння замовник вже не бачить початок кривої ванни, про яку вже згадувалося. Нам пощастило, і з часом ми бачимо лише збільшення ймовірності відмов.

Отже, якщо ви подивитесь на MTTF, який цитує виробник, для будь-якого моделювання відмов, які ви могли б захотіти, ви можете знехтувати початком кривої ванни.


Дякую. До речі, чи маєте ви уявлення про те, що має означати термін "помилка сервера"?
Кейтлін Макморджі

Очевидний сенс - помилка, з якою стикається комп’ютер, який надає послуги іншим. І я вважаю, що саме тоді ви повинні задавати питання на serverfault.com ;-) Не вдалося знайти нічого про це у FAQ
cfi

-2

Ви повинні трактувати це як маркетинг. Вони насправді не знають точного MTBF (середній час між відмовами), тому для їх оцінки використовують різні хитрощі, і вони показують більш високі цифри для «корпоративних» накопичувачів, щоб виправдати їх вартість.

Насправді виробникам жорстких дисків вигідно відмовитися від жорстких дисків незабаром після закінчення гарантії.

Як теорія змови, я вважаю, що масовий збій Seagate 7200.11 був помилкою в застосуванні «запрограмованої смерті», що спричинило збій дисків до закінчення гарантії, тому їм довелося «виправити» це оновленням програмного забезпечення.


Я не купую цей аргумент змови.

1
@Federico Russo: Чому? Ви думаєте, що це просто звичайна помилка розробників, через яку жорсткі диски блокуються в невідновлюваному стані через певну кількість годин?
BarsMonster

2
-1: Статистичний аналіз використовується для визначення чисел MTBF, і це відомо певній статистиці - вони не просто використовують "різні хитрощі". Вам знадобляться вагомі джерела для підтвердження ваших тверджень, що корпоративні накопичувачі мають лише більшу кількість, про те, що виробники жорстких дисків виходять з ладу після закінчення гарантії, і що Seagate впроваджує будь-які «запрограмовані смерті» на своїх накопичувачах.
Кевін Вермер

1
В інтересах виробників приводів виявляється більший MTTF, ніж їх конкуренція. +1
tyblu

Що саме означає збій диска? Що рахується для одного?
Кейтлін Макморджі
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.