Виправлення нормально розподілених точних годин


10

У мене є експеримент, який виконується на сотнях комп’ютерів, розповсюджених по всьому світу, які вимірюють виникнення певних подій. Події залежать одна від одної, тож я можу їх замовляти у порядку збільшення, а потім обчислювати різницю у часі.

Події повинні бути розподілені експоненціально, але при побудові гістограми це я отримую:

Гістограма подій

Неточність годин на комп'ютерах призводить до того, що деяким подіям присвоюється часова марка раніше, ніж подія, від якої вони залежать.

Мені цікаво, чи можна звинувачувати синхронізацію годин за те, що пік PDF не на 0 (що вони перенесли всю справу вправо)?

Якщо розбіжності за годинниками зазвичай розподіляються, чи можу я просто припустити, що ефекти компенсують один одного і таким чином просто використовувати розрахований час різниці?

Відповіді:


13

Проблеми синхронізації годин справді можуть спричинити зміщення піку вправо. Наступне моделювання в R показує це явище. Я використовував експоненційні часи та звичайні відмінності годин, щоб отримати форму, яка приблизно нагадує вашу картину:

Годинники

Розподіл ліворуч (фактичні відмінності, виміряні без помилок) має свій пік у 0, тоді як розподіл праворуч (різниці, виміряні помилкою) має свій пік близько 100.

R-код:

set.seed(20120904)

# Generate exponential time differences:
x<-rexp(100000,1/900)

# Generate normal clock differences:
y<-rnorm(100000,0,50)

# Resulting observations:
xy<-x+y

# Truncate at 500:
xy<-xy[xy<=500]

# Plot histograms:
par(mfrow=c(1,2))
hist(x[x<=500],breaks=100,col="blue",main="Actual differences")
hist(xy,breaks=100,col="blue",main="Observed differences")
lines(c(0,0),c(0,550),col="red")

Якщо різниця в тактовій формі нормальна із середнім 0, різниці слід скасувати в тому сенсі, що середнє значення спостережуваних різниць має бути рівним фактичних різниць. Чи це так, залежить від того, чи є систематична різниця між комп’ютерами, де відбувається перша подія, та комп’ютерами, де відбувається друга подія.


4
+1 Чудово проілюстровано. Математично дані виводяться із суми розподілу помилок та (припускається) експоненціального розподілу. Заманливо оцінити розподіл помилок і відключити дані для оцінки справжнього розподілу.
whuber
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.