Як я можу зрозуміти, який тип розподілу представляє ці дані про час відгуку на ping?


22

Я взяв вибірковий процес у реальному світі, час пінг-мережі. "Час у зворотній час" вимірюється в мілісекундах. Результати наведені в гістограмі:

alt текст

Часи пінг мають мінімальне значення, але довгий верхній хвіст.

Хочу знати, що це статистичний розподіл, і як оцінити його параметри.

Незважаючи на те, що розподіл не є нормальним розподілом, я все одно можу показати, чого я прагну досягти.

Нормальний розподіл використовує функцію:

alt текст

з двома параметрами

  • μ (середнє значення)
  • σ 2  (дисперсія)

Оцінка параметрів

Формули для оцінки двох параметрів:

alt текст

Застосовуючи ці формули до даних, які я маю в Excel, я отримую:

  • μ = 10,9558 (середнє значення)
  • σ 2  = 67,4578 (дисперсія)

За допомогою цих параметрів я можу побудувати " нормальний " розподіл поверх своїх вибіркових даних:

alt текст

Очевидно, це не нормальний розподіл. Нормальний розподіл має нескінченний верхній і нижній хвіст і є симетричним. Цей розподіл не симетричний.


  • Які принципи я застосував би; яку діаграму послідовностей я застосував би, щоб визначити, що це за розподіл?
  • Враховуючи, що розподіл не має негативного хвоста, а довгий позитивний хвіст: які розподіли відповідають цьому?
  • Чи є посилання, яке відповідає розподілам та спостереженням, які ви проводите?

І вирішуючи до погоні, яка формула цього розподілу, і які формули оцінюють його параметри?


Я хочу отримати розподіл, щоб я міг отримати значення "середнє", а також "спред": alt текст

Я фактично будую гістограму в програмному забезпеченні і хочу накласти теоретичний розподіл:

alt текст

Примітка: Перекладено з math.stackexchange.com


Оновлення : 160 000 зразків:

введіть тут опис зображення

Місяці та місяці та незліченна кількість сеансів вибірки дають однаковий розподіл. Там повинно бути математичне уявлення.


Харві запропонував розмістити дані в масштабі журналу. Ось щільність вірогідності в масштабі журналу:

введіть тут опис зображення

Теги : вибірка, статистика, оцінка параметрів, нормальний розподіл


Це не відповідь, а додаток до питання. Ось розподільні відра. Я думаю, що більш пригодний чоловік може захотіти вставити їх у Excel (або будь-яку іншу програму, яку ви знаєте) та зможе відкрити для себе розповсюдження.

Значення нормалізуються

Time    Value
53.5    1.86885613545469E-5
54.5    0.00396197500716395
55.5    0.0299702228922418
56.5    0.0506460012708222
57.5    0.0625879919763777
58.5    0.069683415770654
59.5    0.0729476844872482
60.5    0.0508017392821101
61.5    0.032667605247748
62.5    0.025080049337802
63.5    0.0224138145845533
64.5    0.019703973188144
65.5    0.0183895443728742
66.5    0.0172059354870862
67.5    0.0162839664602619
68.5    0.0151688822994406
69.5    0.0142780608748739
70.5    0.0136924859524314
71.5    0.0132751080821798
72.5    0.0121849420031646
73.5    0.0119419907055555
74.5    0.0117114984488494
75.5    0.0105528076448675
76.5    0.0104219877153857
77.5    0.00964952717939773
78.5    0.00879608287754009
79.5    0.00836624596638551
80.5    0.00813575370967943
81.5    0.00760001495084908
82.5    0.00766853967581576
83.5    0.00722624372375815
84.5    0.00692099722163388
85.5    0.00679017729215205
86.5    0.00672788208763689
87.5    0.00667804592402477
88.5    0.00670919352628235
89.5    0.00683378393531266
90.5    0.00612361860383988
91.5    0.00630427469693383
92.5    0.00621706141061261
93.5    0.00596788059255199
94.5    0.00573115881539439
95.5    0.0052950923837883
96.5    0.00490886211579433
97.5    0.00505214108617919
98.5    0.0045413204091549
99.5    0.00467214033863673
100.5   0.00439181191831853
101.5   0.00439804143877004
102.5   0.00432951671380337
103.5   0.00419869678432154
104.5   0.00410525397754881
105.5   0.00440427095922156
106.5   0.00439804143877004
107.5   0.00408656541619426
108.5   0.0040616473343882
109.5   0.00389345028219728
110.5   0.00392459788445485
111.5   0.0038249255572306
112.5   0.00405541781393668
113.5   0.00393705692535789
114.5   0.00391213884355182
115.5   0.00401804069122759
116.5   0.0039432864458094
117.5   0.00365672850503968
118.5   0.00381869603677909
119.5   0.00365672850503968
120.5   0.00340131816652754
121.5   0.00328918679840026
122.5   0.00317082590982146
123.5   0.00344492480968815
124.5   0.00315213734846692
125.5   0.00324558015523965
126.5   0.00277213660092446
127.5   0.00298394029627599
128.5   0.00315213734846692
129.5   0.0030649240621457
130.5   0.00299639933717902
131.5   0.00308984214395176
132.5   0.00300885837808206
133.5   0.00301508789853357
134.5   0.00287803844860023
135.5   0.00277836612137598
136.5   0.00287803844860023
137.5   0.00265377571234566
138.5   0.00267246427370021
139.5   0.0027472185191184
140.5   0.0029465631735669
141.5   0.00247311961925171
142.5   0.00259148050783051
143.5   0.00258525098737899
144.5   0.00259148050783051
145.5   0.0023485292102214
146.5   0.00253541482376687
147.5   0.00226131592390018
148.5   0.00239213585338201
149.5   0.00250426722150929
150.5   0.0026288576305396
151.5   0.00248557866015474
152.5   0.00267869379415173
153.5   0.00247311961925171
154.5   0.00232984064886685
155.5   0.00243574249654262
156.5   0.00242328345563958
157.5   0.00231738160796382
158.5   0.00256656242602444
159.5   0.00221770928073957
160.5   0.00241705393518807
161.5   0.00228000448525473
162.5   0.00236098825112443
163.5   0.00216787311712744
164.5   0.00197475798313046
165.5   0.00203705318764562
166.5   0.00209311887170926
167.5   0.00193115133996985
168.5   0.00177541332868196
169.5   0.00165705244010316
170.5   0.00160098675603952
171.5   0.00154492107197588
172.5   0.0011150841608213
173.5   0.00115869080398191
174.5   0.00107770703811221
175.5   0.000946887108630378
176.5   0.000853444301857643
177.5   0.000822296699600065
178.5   0.00072885389282733
179.5   0.000753771974633393
180.5   0.000766231015536424
181.5   0.000566886361087923

1
Тільки дивлячись на це, це виглядає як перекошене нормальне розподіл. Чи впевнені ви, що для вашого аналізу потрібні люди, що випадають?
Брендон Бертелсен

1
Мій аналіз буде складатися виключно з того, щоб намалювати гарну графіку на вершинах барів :) Але було б обманювати вигляд, що немає верхнього хвоста ...
Ian Boyd

Ви отримуєте безліч корисних ідей для різних дистрибуцій. Щоб відповісти на ваше запитання "Я хочу знати, що це статистичний розподіл", звичайний метод - це QQ-графік, який легко генерувати в Р.
Майк Данлаве

1
Звичайно, якщо все, що ви хочете, - це плавна крива, візьміть усі свої дані, відсортуйте їх, щоб зробити емпіричний CDF, вирівняйте його та візьміть першу похідну чисельно. Це ваша крива.
Майк Данлаве

Відповіді:


12

Weibull іноді використовується для моделювання часу пінгу. спробуйте розподіл вейбула. Щоб помістити його в R:

x<-rweibull(n=1000,shape=2,scale=100)
#generate a weibull (this should be your data).
hist(x)
#this is an histogram of your data.
library(survival)
a1<-survreg(Surv(x,rep(1,1000))~1,dist='weibull')
exp(a1$coef) #this is the ML estimate of the scale parameter
1/a1$scale     #this is the ML estimate of the shape parameter

Якщо вам цікаво ідентичні назви (наприклад, масштаб $, щоб отримати зворотну форму), це тому, що "survreg" використовує іншу параметризацію (тобто параметризується з точки зору "зворотного вейбула", який є більш відомим в актуарних науках) .


10

Дозвольте мені задати більш основне запитання: що ви хочете зробити з цією інформацією про розподіл?

Причина, яку я запитую, полягає в тому, що це може мати більше сенсу наближати розподіл до якогось оцінювача щільності ядра, а не наполягати на тому, що він вписується в один із (можливо зміщених) експонентних сімейних розподілів. Ви можете відповісти на майже всі ті ж запитання, на які стандартний дистрибутив дозволить вам відповісти, і вам не доведеться хвилюватися (як багато) про те, чи вибрали ви правильну модель.

Але якщо є фіксований мінімальний час, і ви повинні мати якийсь компактно параметризований розподіл, щоб перейти з ним, то просто окуляризуючи його, я б відняв мінімум і підходив до гами, як запропонували інші.


я хочу намалювати теоретичну криву розподілу по ній, знайти середнє , медіанне , стандартне відхилення . Переважно мені хотілося б медіану, але дуже хочеться провести теоретичну криву.
Ян Бойд

1
Я думаю, що Річ мав на увазі щось на кшталт "На яке питання ви намагаєтесь відповісти?" Визначення розподілу даних - це питання, так, але, безумовно, є якесь інше питання, на яке ви, напевно, зможете відповісти, коли знаєте розподіл. Що це?
Метт Паркер

@MattParker Я хочу знати, що таке "пік" часу.
Ян Бойд

2
@IanBoyd Я не думаю, що вам дійсно не потрібно знати теоретичний розподіл, щоб отримати це - чи буде медіана працювати? А для затінення сусідніх "стандартних відхилень" ви можете просто використати кванти. Якщо ваша мета - повідомити, скільки часу займає більшість пінгвів, я не бачу нічого поганого в повідомленні медіани з квантовими значеннями 25% і 75%. Або, якщо ви хочете наслідувати 68%, що потрапляє в межах 1 SD середнього значення в нормальному розподілі, 16% і 84% квантів.
Метт Паркер

8

Немає підстав очікувати, що будь-який набір даних у реальному світі відповідатиме відомій формі розповсюдження ... особливо з такого відомого безладного джерела даних.

Те, що ви хочете зробити з відповідями, багато в чому свідчить про підхід. Наприклад, якщо ви хочете знати, коли часи пінгу суттєво змінилися, то тенденція емпіричного розподілу може бути дорогою. Якщо ви хочете визначити людей, які не виходять, інші методи можуть бути більш доречними.


Дійсно, я хочу намалювати математичну криву, яка слідує за розподілом. Зазначається, що це може бути не відомий розподіл; але я не можу уявити, що цього раніше не досліджували.
Ian Boyd

4
Подивіться на "оцінку щільності".
PeterR

6

Більш простим підходом може бути перетворення даних. Після трансформації він може бути близьким до Гаусса.

Один із поширених способів зробити це - взяти логарифм усіх значень.

Я здогадуюсь, що в цьому випадку розподіл зворотних часів у зворотному напрямку буде більш симетричним і, можливо, близьким до Гаусса. Приймаючи зворотну реакцію, ви по суті підсумовуєте табличні швидкості замість разів, тому інтерпретувати результати все ще легко (на відміну від логарифмів чи багатьох перетворень).


4

xGamma(k,θ)

Процес оновлення - оцінка

θ^k^k^


я насправді збирався намагатися уникати згадки про дистрибуцію Gamma. Я бачив це у Вікіпедії, я фактично не можу знайти формулу для розподілу або формули для оцінки параметрів у цій формулі. І тоді я по-справжньому нервував, коли побачив "Немає рішення для закритої форми для k". І я все-таки спробував це з деякими формулами - але коли ви отримуєте пакет, який повертається через 0 мс, ln (0) вибухає.
Ян Бойд

Тому що, хоча я добре розумію нормальне розповсюдження, з моїх університетських днів я переживаю голову, коли ми добираємось до таких речей, як "Дивергенція Куллбека - Лейблера" .
Ян Бойд

к

Так, технічно це слід називати <1ms. І цей сюжет не містить нуля, тому що він переходить через більш високу затримку (модем). Але я можу запустити програму так само за швидшим посиланням (тобто пінг іншої машини в локальній мережі), і звичайно отримувати <1msі 1ms, набагато менше випадків 2ms. На жаль, Windows забезпечує лише дозвіл на 1ms. я міг би вручну виконувати його за допомогою високоефективного лічильника, отримуючи µs; але я все ще сподівався, що зможу скласти їх у відра (щоб зберегти пам'ять). Можливо, я повинен додати 1 мс до всього ...1ms ==> (0..1]
Ієн Бойд

просто пристосування гам до R: docs.google.com/…
apeescape

4

Інший підхід, більш обґрунтований міркуваннями мережі, полягає у спробі встановити суму незалежних експоненцій з різними параметрами. Слушним припущенням буде те, що кожен вузол на шляху затримки ping буде незалежним експоненціалом з різними параметрами. Посилання на форму розподілу суми незалежних експоненцій з різними параметрами - http://www.math.bme.hu/~balazs/sumexp.pdf .

Ви, мабуть, також повинні дивитись на часи пінгу та кількість хмелів.


3

Дивлячись на це, я б сказав, що косий нормальний або, можливо, бінормальний розподіл може добре відповідати йому.

У R ви можете використати snбібліотеку для вирішення нормального косого розповсюдження та використання nlsабо mleдля отримання нелінійного найменшого квадрата або максимальної еквівалентності вірогідності відповідності ваших даних.

===

EDIT: перечитуючи ваше запитання / коментарі, я б додав щось більше

Якщо те, що тебе цікавить, - це просто намалювати гарний графік за гратами, забудь про дистрибуцію, хто переймається зрештою, якщо ти з цим нічого не робиш. Просто намалюйте B-шліц над точкою даних, і ви добре.

Крім того, при такому підході вам уникнути необхідності впровадження алгоритму підгонки MLE (або подібного), і ви будете охоплені у випадку розповсюдження, яке не є нормальним (або як ви хочете намалювати)


+1 я думав і двочленним, коли вперше побачив гістограму. (Не впевнений, чому це було знято).
дог

Ну це не просто гарні лінії. Я також хотів би мати можливість вказати на справжній "пік" кривої, а також відтінок в одному одиниці стандартного відхилення з обох боків.
Ян Бойд

@IanBoyd: B-сплайну буде достатньо для цих речей, тим більше, що гістограма порівняно низька. Тоді, це завжди залежить від того, що ви маєте на увазі під "справжнім" піком.
ніко

2

На основі вашого коментаря "Дійсно, я хочу намалювати математичну криву, яка слідує за розподілом. Зазначено, що це може бути не відомий розподіл; але я не можу уявити, що це раніше не досліджувалося". Я надаю функцію, яка підходить.

Погляньте на ExtremeValueDistribution

Я додав амплітуду і зробив дві бета-версії різними. Я думаю, центр вашої функції ближче до 9,5, ніж 10.

Нова функція: a E ^ (- E ^ (((- x + alpha) / b1)) + (-x + alpha) / b2) / ((b1 + b2) / 2)

{alpha-> 9.5, b2 -> 0.899093, a -> 5822.2, b1 -> 0.381825}

Вольфрам альфа : сюжет 11193.8 Е ^ (- Е ^ (1.66667 (10 - х)) + 1.66667 (10 - х)), х 0..16, у від 0 до 4500

Деякі пункти близько 10 мс:
{{9, 390.254}, {10, 3979.59}, {11, 1680.73}, {12, 562.838}}

Хоча хвіст не ідеально підходить. Хвіст може підходити краще, якщо b2 нижче, а пік вибирається ближче до 9.


1

Для мене розподіл виглядає нормально .

Ви можете встановити свої дані за допомогою двох параметрів: масштабу та розташування. Вони можуть бути встановлені приблизно так само, як звичайний розподіл, використовуючи максимізацію очікування.

http://en.wikipedia.org/wiki/Log-normal_distribution

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.