Скажімо, у мене є машина A і B, де машина B має помірно швидший диск, але порівнянний процесор з машиною A, все інше. Я виконую велику роботу Spark локально на обох машинах, де вхідний набір даних занадто великий, щоб вписатися в пам'ять, що змушує використовувати диск. Коли я запускаю цю велику роботу Spark, я збираю системні метрики за допомогою sysstat / sar. Сенс цього полягає в порівнянні процесорів.
Машина B здатна закінчити роботу приблизно на 10% швидше. Я бачу, що машина B здатна досягати чіткого читання / запису в секторі в секунду (на 30% більше), з меншим середнім часом відповіді на запит введення-виведення (до 250% краще) за допомогою sar. Я прийшов до висновку, що машина Б має несправедливу перевагу над машиною А, тому що вона швидше диска.
Моє питання, як я буду в змозі визначити, якщо процесор машини B є просто більш ефективним у використанні диска I / 0, ніж машина А? Більш конкретно, як я можу переконатися, що відмінності в швидкості диска не призводять до несправедливої переваги для того, щоб зробити справедливе порівняння між процесорами? Чи є якісь системні показники, які б давали більше інформації про це?