Який розподіл найчастіше використовується для моделювання часу відгуку сервера?


16

У мене є сервлет-додаток, в якому я вимірюю час, необхідний для виконання кожного запиту до цього сервлета. Я вже обчислюю просту статистику, як середнє та максимальне; Однак я хотів би зробити ще більш складний аналіз, і для цього я вважаю, що мені потрібно правильно моделювати ці часи реакції.

Безумовно, я говорю, часи відгуку йдуть за відомим розповсюдженням, і є вагомі підстави вважати, що розподіл - це правильна модель. Однак я не знаю, яким має бути цей розподіл.

Зрозуміло, що для журналу звичайно і гамма, ви можете створити будь-який тип даних реального часу відповіді. Хтось має уявлення про те, який розподіл повинен тривати час реакції?

Відповіді:


17

Розподіл Log-Normal - це те, що мені найкраще описує затримки часу відгуку сервера для всієї бази користувачів протягом певного періоду часу.

Деякі приклади ви можете побачити на влучно названому сайті lognormal.com , який займається вимірюванням розподілу затримок сайту за часом та багато іншого. Я не маю приналежності до сайту, окрім того, що я щасливий користувач. Ось як виглядає розподіл; час відповіді (наприклад, завантаження веб-сторінки) та кількість відповідей:

нормальний розподіл журналу

Зауважте, що на цій діаграмі масштаб часу навантаження (вісь X) лінійний. Якщо переключити вісь x на логічну шкалу, форма розподілу виглядала б більш нормальною (дзвонича) у правій частині вершини.


Цей PDF-файл дійсно схожий на фреш на мою думку.
usεr11852 повідомляє Відновити Монік

4

Приклад графіку  Докладніше див. У статті.

Моє дослідження показує, що найкраща модель визначається кількома речами: 1) Ви переймаєтесь тілом, хвостом або обома? Якщо не "обидва", моделювання відфільтрованого набору даних може бути кориснішим. 2) Ви хочете дуже простого чи дуже точного? тобто скільки параметрів?

Якщо відповідь на 1 було "і", а 2 - "просто", Парето, здається, найкраще працює. В іншому випадку, якщо 1 - "тіло", а 2 - "просто" - вибирайте відфільтровану модель ерланг. Якщо 1 "обидва", а 2 - "точні", ви, мабуть, хочете модель гауссової суміші для ваших даних у домені журналу - це фактично логоритмічна відповідність.

Я займався цим дослідженням останнім часом, і не знайшов, що тема буде достатньо добре висвітлена в загальнодоступному Інтернеті, тому я просто написав допис у блозі, в якому детально описував моє дослідження цієї теми.


1
Дякую за діаграму На основі (приблизно) тримодального розподілу, який я маю, я вважаю, що це не проста установка (на одному сервері). У вас, здається, є кілька проміжних програм чи зворотних програм, які повільніше. Вони змушують загальну реакцію сповільнюватися, коли сервер, орієнтований на користувача, чекає реакції підсистем із заднім кінцем, які потенційно кешуються. Також незрозуміло, що означають осі X та Y. Ви інвертували час навантаження (спочатку вісь X) і рахує (спочатку вісь Y)?
аріельф

Thanks for your feedback! The source dataset was more akin to pings than web service requests, but I would guess the trimodal distribution is due to mainly two things: 1) The main bi-modal asymmetry is due to two network paths, while 2) the long-tail 3rd component is due to tcp error recovery scenarios. That's just a guess though... my main focus was on the empirical utility of various models, not the process and theory. I'm not entirely sure what you are asking about the inverted axis, though... do you have an example plot?
Andrew Charneski

Also, my apologies on the sloppy graphic. The x-axis is microseconds, and the y axis is probability density. (Yeah, I know... sorry... see the notebook for reproducible science.)
Andrew Charneski
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.