Визначте, чи значно покращився процес поширення важких хвостів


12

Я спостерігаю за часом обробки процесу до та після зміни, щоб з'ясувати, чи покращився процес зміною. Процес покращився, якщо скоротити час обробки. Час розподілу часу обробляється жиром, тому порівняння на основі середнього значення не є розумним. Натомість хотілося б знати, чи вірогідність спостерігати менший час обробки після зміни значно вище 50%.

Нехай - випадкова величина за час обробки після зміни, а - раніше. Якщо значно вище тоді я б сказав, що процес покращився.Y P ( X < Y ) 0,5XYP(X<Y)0.5

Тепер у мене є спостереження з і спостережень з . Видимий ймовірність є .x i X m y j YnxiXmyjYр = 1P(X<Y)p^=1nmij1xi<yj

Що я можу сказати про огляду на спостереження та y_j ?x i y jP(X<Y)xiyj

Відповіді:


12

Ваша оцінка дорівнює статистиці Mann-Whitney поділеній на (спасибі, Глен!), І тому еквівалентна статистиці Wilkoxon-рейтингу (також відома як статистика Wilcoxon-Mann-Whitney) : , де - розмір вибірки (при умові, що немає зв’язків.) Ви можете використовувати таблиці / програмне забезпечення тесту Вілкоксона і перетворити їх назад на щоб отримати довірчий інтервал або -значення.p^UmnWW=U+n(n+1)2nyUp

Нехай - розмір вибірки , = . Потім, асимптотично,mxNm+n

W=Wm(N+1)2mn(N+1)12N(0,1)

Джерело: Голландер і Вулф , непараметричні статистичні методи, приблизно стор. 117, але, мабуть, більшість непараметричних книг зі статистикою потраплять туди.


@Glen_b - дякую, я оновив відповідь. Дуже щедра здогадка, яку ви зробили там про причину помилки!
jbowman

13

@jbowman пропонує (приємне) стандартне рішення проблеми оцінки яка відома як модель напруженості .θ=P(X<Y)

Інша непараметрична альтернатива була запропонована в Baklizi and Eidous (2006) для випадку, коли і незалежні. Це описано нижче.YXY

За визначенням ми маємо це

θ=P(X<Y)=FX(y)fY(y)dy,

де є ВПР з і щільність . Потім, використовуючи зразки і можна отримати ядра оцінювачів з і і , отже і оцінку X f Y Y X YFXXfYYXYf Y θFXfYθ

θ^=F^X(y)f^Y(y)dy.

Це реалізовано в наступному коді R за допомогою ядра Гаусса.

# Optimal bandwidth
h = function(x){
n = length(x)
return((4*sqrt(var(x))^5/(3*n))^(1/5))
}

# Kernel estimators of the density and the distribution
kg = function(x,data){
hb = h(data)
k = r = length(x)
for(i in 1:k) r[i] = mean(dnorm((x[i]-data)/hb))/hb
return(r )
} 

KG = function(x,data){
hb = h(data)
k = r = length(x)
for(i in 1:k) r[i] = mean(pnorm((x[i]-data)/hb))
return(r )
} 

# Baklizi and Eidous (2006) estimator
nonpest = function(dat1B,dat2B){
return( as.numeric(integrate(function(x) KG(x,dat1B)*kg(x,dat2B),-Inf,Inf)$value))  
}

# Example when X and Y are Cauchy
datx = rcauchy(100,0,1)
daty =  rcauchy(100,0,1)

nonpest(datx,daty)

Для того, щоб отримати довірчий інтервал для ви можете отримати зразок завантаження цього оцінника наступним чином.θ

# bootstrap
B=1000
p = rep(0,B)

for(j in 1:B){
dat1 =  sample(datx,length(datx),replace=T)
dat2 =  sample(daty,length(daty),replace=T)
p[j] = nonpest(dat1,dat2)
}

# histogram of the bootstrap sample
hist(p)

# A confidence interval (quantile type)
c(quantile(p,0.025),quantile(p,0.975))

Можливо також розглянути інші види інтервалів завантаження.


2
Цікава та хороша довідка на папері (+1). Я додам його до свого репертуару!
jbowman

0

XiYiP(XiYi<0)=pI{XiYi<0}i=1,2,..,nXXi<Yin p=P(XiYi<0)X/n


2
Що лежить в основі спарювання, Майкл?
whuber

ОП сказав: «Нехай X - випадкова величина за час обробки після зміни, а Y - раніше». Отже, Xi - після втручання, а Yi - до.
Майкл Р. Черник

m=nXiYj

1
Ти правий. Я здогадуюсь, якийсь тест з двох зразків, наприклад, Wilcoxon, як запропонував jbowman, був би доречним. Цікаво, що форма Манна-Вітні і тесту підраховує кількість Xis <the Yjs.
Майкл Р. Черник
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.