У мене був невеликий проект, де я використовував CUDA, і я пам’ятаю, що плаваючий показник там теж був швидшим, ніж подвійний. Одного разу трафік між хостом і пристроєм стає нижчим (хост - це центральний процесор і "звичайна" оперативна пам'ять, а пристрій - це графічний процесор і відповідна оперативна пам'ять). Але навіть якщо дані постійно зберігаються на Пристрої, це повільніше. Здається, я десь читав, що це нещодавно змінилося або має змінитися з наступним поколінням, але я не впевнений.
Отже, здається, що в цих випадках графічний процесор просто не може обробляти подвійну точність, що також пояснює, чому зазвичай використовується GLFloat, а не GLDouble.
(Як я вже говорив, це лише наскільки я пам’ятаю, просто натрапив на це під час пошуку float проти double на центральному процесорі.)