Оцінка ймовірності апаратної помилки

13

Скажімо, я впродовж 4 годин на http://www.nersc.gov/users/computational-systems/edison/configuration обчислював суперкомп'ютерні обчислення на 100 кер ядрах , обмінюючись приблизно 4 ПБ даних по мережі та виконуючи близько 4 ТБ I / / О. Обчислення є цілим числом, тому результати є правильними чи неправильними (відсутні проміжні числові помилки).

Припускаючи, що код правильний, я хотів би оцінити ймовірність того, що обчислення невірно через несправність обладнання. Який хороший шлях для цього? Чи є хороші джерела для кількості, необхідної для такої оцінки?

error-estimation

— Джеффрі Ірвінг
джерело

Я думаю, що результати процесора / оперативної пам’яті дійсно стабільні в порівнянні з міркуваннями мережі hooey та диска.

— meawoppl

5

$O(10^8)$

Моє згадування полягає в тому, що серед різних режимів відмов одиночні біти фліп в пам'яті або на процесорних ядрах не були найбільш важливими проблемами. Скоріше, цілі вузли знижувалися, наприклад, через збій диска, несправності операційної системи тощо. Поточні конструкції екскавальної шкали тому вимагають періодичної контрольної точки кодів у флеш-пам’яті, бажано передаючи дані про контрольну точку від вузла. Потім коди повинні мати змогу перезапуститись на льоту з раніше збереженого стану, якщо система стикається з тим, що один вузол зник, замінивши цей вузол вузлом гарячого запуску в іншому місці системи.

— Вольфганг Бангерт
джерело

Це звучить як саме те, що мені потрібно. Чи маєте на увазі конкретні приклади?

— Джеффрі Ірвінг

1

Я хотів би побачити, чи є щось серед різних звітів DoE, що цікавить вас. Я припускаю, що ви також знаєте про exascale.org ? Там має бути багато для читання.

— Вольфганг Бангерт

1

Джефф, остаточний звіт про екзасмалі - Пітер Когге і доступний в Інтернеті . Подивіться на будь-які виникнення слова стійкість. З цього приводу я можу вказати на кількох людей з NERSC, які, можливо, мають більш конкретну інформацію про цю машину.

— Арон Ахмадія

@AronAhmadia: Дякую, цей документ виглядає чудово. Я приймаю цю відповідь, оскільки вона повинна охоплювати більше класів помилок, які мене цікавлять.

— Джеффрі Ірвінг

@Wolfgang: Це нагадує мені мої часи холодної війни, коли ракети Minuteman були запрограмовані з контрольно-пропускними пунктами, так що якщо поблизу сталася спалах нейтронів, що спричинило миттєве відключення процесора, воно могло б перезапуститись з останньої контрольної точки. Якщо він брав контрольно-пропускні пункти в очевидно правильний час, його називали "захищеним від перезапуску".

— Майк Данлаве

9

Я думаю, ви починаєте зі збирання частоти помилок таких компонентів, як DRAM, як це дослідження Google щодо помилок DRAM в дикій природі: велике масштабне польове дослідження. Вони виявили ~ 1% шансу отримати одну непоправлену помилку на рік.

Я не впевнений, що саме це вам цікаво. Мене більше зацікавлять невизначені помилки. Помилки такі, що типові методи перевірки помилок не виявлять. Наприклад, коли ви надсилаєте пакети через оптику, вони супроводжуються деяким КРС, що дозволяє мати невеликий шанс проскочити помилку.

ОНОВЛЕННЯ: у цьому документі Архітектури виявлення та відновлення помилок в Інтернеті в багатоядерних процесорах розповідається про надійну багатоядерну архітектуру, але вони також охоплюють різні аспекти надійності системи та мають бібліографію.

— Аксакал майже напевно двійковий
джерело

Прекрасне дослідження. Це підтверджує багато інтуїції, стара, гаряча, часто використовується, майже повний баран менш надійний. Я дещо здивований, що немає жодних недоліків продавця або загалом гірших архітектур.

— meawoppl

3

Чи є хороші джерела для кількості, необхідної для такої оцінки?

Ви можете спробувати попросити адміністраторів кластеру, на якому ви здійснюєте обчислення. Я уявляю, що в процесі їх перевірки вони зіткнулися з проблемою оцінки ймовірності апаратних помилок.

— Сумед Джоші
джерело

Спасибі! Очевидний заднім числом, але мені це не прийшло в голову.

— Джеффрі Ірвінг

2

Звучить епічно. Якщо ніхто не зробив цього експерименту, ви можете розглянути можливість виконання 100k окремих ядер, роблячи щось на кшталт повторного повторного введення ша1 вводу знову і знову, бачачи, що таке показник помилок. (Я не підозрюю), звідти робимо те ж саме, але пропонуємо їм торгувати результатами хеш-ланцюгу так часто, щоб отримати ваші показники помилок у мережі. Я думаю, це також дуже мало, але я підозрюю, що ти можеш отримати хоча б пару за допомогою свого суперкластера протягом кількох годин :)

Такий підхід гарантує правильність кожного обчислення, оскільки хешування надзвичайно чутливе до однорозрядних свопів, тоді як навіть обчислення лише цілим числом може приховати помилки у гілках, тобто весь обчислення не буде еліптичним для кожного послідовного стану пам'яті.

Я працював над тим, щоб переконатися, що код був правильно виконаний зовнішнім кластером, мотивація якого - обман, подаючи підроблені результати. Рішення, на яке я сходився, - це інтегрування хешу в обчислення з деякою частотою, що робить обман менш ефективним, ніж виконання роботи.

— meawoppl
джерело

2

На жаль, навряд чи ваша схема видобутку біткойнів буде затверджена. :)

— Джеффрі Ірвінг

Ти-хі-хі. Це справді доказ роботи. : P

— meawoppl