Згаданий вами документ CMU-Intel показує (на стор. 5), що рівень помилок сильно залежить від номера деталі / дати виготовлення модуля DRAM і змінюється в 10-1000 разів. Також є деякі вказівки на те, що проблема набагато менш виражена в останніх (2014 р.) Виготовлених мікросхемах.
Число "9,4x10 ^ -14", яке ви цитували, використовувалося в контексті запропонованого теоретичного механізму пом'якшення, який називається "PARA" (який може бути подібний до існуючого механізму пом'якшення стану pTRR (pseudo Target Row Refresh)) і не має значення для вашого питання, оскільки PARA не має нічого спільного з ECC.
У другому документі CMU-Intel (стор. 10) згадується про вплив різних алгоритмів ECC на зменшення помилок (коефіцієнт 10 ^ 2 до 10 ^ 5, можливо, набагато більше із складними тестами пам’яті та «захистом»).
ECC ефективно перетворює подвиг Row Hammer у атаку DOS. 1-бітові помилки будуть виправлені ECC, і як тільки виявиться неправільна 2-бітова помилка, система зупиниться (якщо припустити SECDED ECC).
Рішення - придбати обладнання, яке підтримує pTRR або TRR. Дивіться поточну публікацію в блозі від Cisco про Row Hammer . Принаймні, деякі виробники, мабуть, мають один із цих механізмів пом'якшення, вбудований у свої модулі DRAM, але зберігають його глибоко прихованим у своїх характеристиках. Щоб відповісти на ваше запитання, запитайте продавця.
Швидша швидкість оновлення (32 мс замість 64 мс) та агресивні інтервали очищення патруля також допомагають, але це вплине на продуктивність. Але я не знаю жодного серверного обладнання, яке б насправді дозволило точно налаштувати ці параметри.
Я думаю, що з боку операційної системи ви не можете зробити багато, крім припинення підозрілих процесів з постійним високим використанням процесора та великими пропусками кешу.