Скажімо, я впродовж 4 годин на http://www.nersc.gov/users/computational-systems/edison/configuration обчислював суперкомп'ютерні обчислення на 100 кер ядрах , обмінюючись приблизно 4 ПБ даних по мережі та виконуючи близько 4 ТБ I / / О. Обчислення є цілим числом, тому результати є правильними чи неправильними (відсутні проміжні числові помилки).
Припускаючи, що код правильний, я хотів би оцінити ймовірність того, що обчислення невірно через несправність обладнання. Який хороший шлях для цього? Чи є хороші джерела для кількості, необхідної для такої оцінки?