Процесор або вузьке місце диска?


0

Скажімо, у мене є машина A і B, де машина B має помірно швидший диск, але порівнянний процесор з машиною A, все інше. Я виконую велику роботу Spark локально на обох машинах, де вхідний набір даних занадто великий, щоб вписатися в пам'ять, що змушує використовувати диск. Коли я запускаю цю велику роботу Spark, я збираю системні метрики за допомогою sysstat / sar. Сенс цього полягає в порівнянні процесорів.

Машина B здатна закінчити роботу приблизно на 10% швидше. Я бачу, що машина B здатна досягати чіткого читання / запису в секторі в секунду (на 30% більше), з меншим середнім часом відповіді на запит введення-виведення (до 250% краще) за допомогою sar. Я прийшов до висновку, що машина Б має несправедливу перевагу над машиною А, тому що вона швидше диска.

Моє питання, як я буду в змозі визначити, якщо процесор машини B є просто більш ефективним у використанні диска I / 0, ніж машина А? Більш конкретно, як я можу переконатися, що відмінності в швидкості диска не призводять до несправедливої ​​переваги для того, щоб зробити справедливе порівняння між процесорами? Чи є якісь системні показники, які б давали більше інформації про це?


1
Встановіть "LiveCD" стиль встановлення і використовувати один тимчасовий диск для будь-якого читання / запису в кожній машині? напр. для тестів видаліть жорсткі диски з кожного і використовуйте окремий спеціальний жорсткий диск для обох тестів.
Yorik

не можна було б говорити про заміну жорсткого диска і керувати тими ж процесами? тоді ви могли б побачити, якщо машина A закінчується швидше, ніж машина B?
TiO

JOC, що саме ви намагаєтеся зробити? якщо ви просто намагаєтеся порівняти процесори, є інші способи зробити це, які не вводять диск як змінний. Більшість еталонних тестів краще відповідатимуть законопроекту.
Frank Thomas

Відповіді:


1

Якщо ви вважаєте, що диск I / O вузьким місцем є несправедливим, то ви повинні взяти його з рівняння, і простий спосіб зробити це, робить всю роботу на RAM дисків (звичайно, вам потрібно барана, і це буде обмежено на просторі ) І тоді, якщо технологія оперативної пам'яті обох не буде однаковою, у вас буде ще один несправедливий сценарій.

Також можна використовувати центральний NFS-сервер, а тоді вузьким місцем буде мережа.

Отже, якщо б ваша базова лінія була б роботою Spark, і вся ідея полягає в тому, щоб порівняти і не знайти більш швидку конфігурацію. Я можу порадити вирівнювати ситуацію і мати цілий набір даних на USB-накопичувачі, а потім i / o диск повинен відповідати (якщо ви використовуєте той же тип роз'єму як USB2, так і USB3)

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.