Чому в Prime95 чому невеликі FFT виробляють найбільше тепла, незважаючи на процесор на 100% для всіх варіантів?

Щойно я створив новий ПК Skylake , і я збираюся побачити трохи розгону з Prime95 як тестеру стресу.

Він працює нормально при звичайному використанні, але в Prime95 я помічаю трохи процесування процесора при певних навантаженнях.

Якщо всі 4 ядра (8 ниток) заклинюються на 100% незалежно, чому налаштування малого FFT в Prime95 досягає більш високої температури, ніж опція 'Blend'?

— ChrisA
джерело

Векторизований код, особливо AVX, природно збільшує тепловіддачу процесора, оскільки для виконання цих інструкцій процесор повинен працювати при більш високій напрузі. Невеликі FFT вимагають менше пам'яті, ніж режим суміші, тому процесор витрачає більше часу на обробку даних і менше часу на очікування даних.

Архітектура x86-64 забезпечує широкі можливості обробки векторів , особливо на останніх процесорах. Векторна обробка дозволяє програмам виконувати математичні операції над декількома елементами даних одночасно, і використовується багатьма новішими обчислювально-інтенсивними додатками для збільшення пропускної здатності обробки.
Векторизований код, особливо інструкції AVX, використовувані Prime95, вимагає, щоб процесор працював на більш високій напрузі, ніж зазвичай. Це призводить до того, що споживання енергії та тепловіддача перевищують те, що відбувається при нормальних робочих навантаженнях. З цієї причини Intel попереджає, що великі навантаження AVX можуть призвести до того, що процесор перестане працювати або не підтримувати повну тактову частоту Turbo Boost (виноска 1):

Розширені векторні розширення Intel® (Intel® AVX) розроблені для досягнення більшої пропускної здатності для певних операцій з цілим числом і плаваючою точкою. Через різні характеристики потужності процесора, використання інструкцій AVX може спричинити: а) деякі частини працювати на меншій ніж номінальна частота; б) деякі частини з Intel® Turbo Boost Technology 2.0, щоб не досягти будь-яких або максимальних частот турбо.

Intel пояснює це детальніше у цій білій книзі . Зокрема, він зазначає:

Intel AVX розроблений для досягнення більшої пропускної здатності для певних цілих чисел і операцій з плаваючою комою. Використання цих інструкцій може призвести до того, що процесори працюватимуть менше ніж позначена частота TDP. Ці зниження частоти виникають через те, що для потужних інструкцій Intel AVX потрібні додаткові напруги та електричний струм.
- Я здогадуюсь, чому для інструкцій AVX необхідне підвищення _ядра V, це те, що блоки виконання AVX є складнішими за інші частини процесора, в результаті чого відповідні етапи конвеєра потребують більше часу (див. Цю відповідь для отримання додаткової технічної інформації про трубопроводи та інші аспекти дизайну процесора). Якщо певна стадія трубопроводу повільна, максимальна тактова частота всього процесора обмежена, оскільки кожна стадія трубопроводу повинна закінчуватися протягом кожного тактового циклу.
- З цієї ж причини більш високі напруги збільшують максимально досяжні частоти при розгоні (транзистори можуть перемикатися швидше при більш високих напругах), підвищення напруги допомагає забезпечити, що довші стадії трубопроводу можуть закінчитися вчасно.
У режимі Small FFT використовуються лише менші елементи даних, які можуть вміщуватися в кеш процесора , на відміну від режиму Blend, який працює як на малих, так і на великих значеннях, які можуть не входити в кеш. Оскільки доступ до пам'яті є повільним відносно простої обробки даних, процесор витратить менше часу, фактично обробляючи дані в режимі Blend, зменшуючи тепловіддачу. Невеликі FFT не тягнуть ніде поблизу стільки доступу до пам'яті, що призводить до більш реальної роботи процесора, тим самим збільшуючи енергоспоживання та тепловіддачу.

— bwDraco
джерело

Завдяки @DragonLord, це робить різні режими Prime95 дуже зрозумілими. Підкажіть, будь ласка, поясніть, чому монітор ресурсів читає 100% в обох випадках? Чому, наприклад, він не читає менше 100% у режимі Blend, якщо він чекає даних більше часу, ніж у режимі малого FFT?

— ChrisA

Процесор, зайнятий очікуванням пам'яті, як і раніше, повідомляється як зайнятий ОС.

— bwDraco