Це скоріше анекдотичні докази, ніж продемонстровані докази, але виявляється, що існуючі реалізації для FFT, такі як FFTW , обмежують свої можливості масштабування.
Коли ми почали використовувати простір для вирішення LAMMPS в дуже великих системах ( O ( 10 7 ) атомів), ми виявили, що масштабування триває, доки ми не змогли утримати кількість процесорів достатньо невеликою, щоб вони могли поміститися на одну стійку . Як тільки ми спробували розширитись далі (вище приблизно 4K процесорів, залежно від машини), масштабування вийшло з ладу - мабуть, через те, що витрати на комунікацію на передачу даних між процесорами стали занадто великими, щоб підтримувати масштабування. [Останнім часом, щоб обійти цю проблему, вони запровадили можливість виділення певного розділу розподілу процесора для обчислення FFT.]кО ( 107)
Але повідомлення про те, що повернутись додому, полягає в тому, що FFT має збільшуватися; однак, іноді існують несподівані обмеження та взаємодії, які вступають у гру, коли переходить від теоретичного розгляду продуктивності алгоритму до його практичної реалізації на фактичній платформі HPC.