MTTF, MTBF, MTBR і MTBF для HP ProLiant Gen9

Я розглядав MTTF, MTBF, MTBR і MTBF для серверів HP Gen9, що працюють в нашому виробничому середовищі.

Корінь мого питання, варто хвилюватися чи ні.

Я не можу отримати хороших даних, оскільки кожен сервер має поєднання обладнання.

У моїй останній компанії ми працювали близько 2000 сервера dell r210 r410 r710, я б сказав, що в середньому у нас було близько 5 серверів на день, які мали певний збій. Таким чином, приблизно 0,25% сервера важко знизилися і потрібно було замінити його частину, перш ніж можна було знову використовувати.

У моїй останній компанії все було налаштовано на пару HA, інфраструктуру N + 2, так що це не впливало на виробництво. Нам вдалося замінити сервери і продовжувати роботу

У моєму офісі ми запускаємо 9 серверів (HP Gen9, 56 VM's Hyper-V), ми не тримаємо багато запасних частин під рукою, також центр обробки даних не керується, тому якщо щось вмирає, нам доведеться їхати приблизно 45 хвилин, щоб замінити що завгодно.

Мій CTO, ні менеджер з інформаційних технологій, схоже, не хвилюються, минулого року у них було близько 2,5 днів простою, я запевняю, що нам потрібно кластерувати сервери, але вони не бачать потреби.

Тут неправильно чи правильно? Не впевнений, що робити.

Я знаю, що це не моя відповідальність, якщо щось трапиться на CTO. Це дуже маленька компанія, лише КТО, ІТ-менеджер, я (розробник) та 1 хлопець.

Незважаючи на весь досвід роботи з виробничим середовищем, дуже обмеженим, так, як багато всього налаштовано, я б назвав дуже молодшим рівнем, ні мій CTO, ні ІТ-менеджер не знали багато про групування, перш ніж я туди потрапив. Вони опинилися в середині проекту по встановленню ДР без ВА, проти якого я боровся, але програв.

hyper-v hardware hp-proliant

— Ентоні Форніто
джерело

HA коштує грошей. Можливо, вони думають, що це не варто грошей.

— Майкл Хемптон

Не турбуйтеся про цифри MTTF, MTBF, MTBR та MTBF ... чому вони стосуватимуться специфіки вашого оточення?

Сервери мають внутрішні надлишки і можуть бути надзвичайно стабільними у виробництві. Але це залежить від вашого оточення, масиву / складу диска, типів дисків, кількості оперативної пам’яті, конфігурації процесора, теплових характеристик, потужності тощо.

Використання якоїсь форми високої доступності може зменшити потенціал простоїв і надасть вам місце для переміщення ваших навантажень у разі відмови.

Це питання фінансового та операційного ризику.

Можливо, додаткова вартість переходу від автономного до кластеру є досить високою, що не має сенсу для бізнесу? Можливо, 2,5 дня простою (~ 99,3% доступності) є досить хорошими для вашої роботи. Ви повинні зосередитись на захисті за межами місця та хороших резервних копій. Всі ваші системи HP Gen9 мають гарантію виробника сьогодні, так що ви дійсно маєте доступ до частин. Якщо у вас RAID, надлишкові джерела живлення / вентилятори та стабільна потужність, ви охопили найважливіші області.

Подумайте про це з фінансової точки зору та окресліть ризики, пов’язані з цим витрати та спробуйте зробити переконливий бізнес- випадок для того, що ви хочете.

— ewwhite
джерело