Математика, необхідна для отримання точного результату, безладна, але ми можемо отримати точне значення для очікуваного коефіцієнта кореляції у квадраті порівняно безболісно. Це допомагає пояснити , чому значення близько продовжує демонструвати і чому збільшення довжини п випадкового блукання не змінить речі.1/2n
Існує потенція для плутанини щодо стандартних термінів. Абсолютна кореляція, про яку йдеться у запитанні, разом зі статистикою, яка її складає - дисперсії та коваріації - є формулами, які можна застосувати до будь-якої пари реалізацій випадкових прогулянок. Питання стосується того, що відбувається, коли ми дивимось на багато незалежних реалізацій. Для цього нам потрібно прийняти очікування щодо процесу випадкової прогулянки.
(Редагувати)
Перш ніж ми продовжимо, я хочу поділитися з вами деякими графічними відомостями. Пара незалежних випадкових прогулянок - випадкова хода у двох вимірах. Ми можемо побудувати шлях, який крокує від кожного ( X t , Y t ) до X t + 1 , Y t + 1 . Якщо цей шлях має тенденцію донизу (зліва направо, побудований на звичайних осях XY), то для того, щоб вивчити абсолютне значення кореляції , відкинемо всі значення Y. Накресліть прогулянки по осях розміром, щоб дати X і(X,Y)(Xt,Yt)Xt+1,Yt+1YX значення рівні стандартні відхилення і накладатися найменших квадратів з Y до X . Нахили цих ліній будуть абсолютними значеннями коефіцієнтів кореляції, лежачи завжди між 0 і 1 .YYX01
Цей малюнок показує таких прогулянок, кожна довжиною 960 (зі стандартними нормальними відмінностями). Маленькі відкриті кола позначають свої вихідні точки. Темні кола позначають їх кінцеві місця.15960
Ці схили, як правило, досить великі. Ідеально випадкові розсіювачі цих багатьох точок завжди мали б нахили дуже близькі до нуля. Якби нам довелося описати закономірності, що виникають тут, можна сказати, що більшість 2D випадкових прогулянок поступово мігрують з одного місця в інше. (Однак, це не обов'язково їх місце початку та кінцевої точки!) Приблизно половина часу міграція відбувається в діагональному напрямку - і нахил відповідно високий.
У решті цього посту наводиться аналіз цієї ситуації.
Випадкова хода - це послідовність часткових сум ( W 1 , W 2 , ... , W n ), де W i є незалежними однаково розподіленими нульовими середніми змінними. Нехай їх спільна дисперсія буде σ 2 .(Xi)(W1,W2,…,Wn)Wiσ2
У реалізації такої прогулянки, "дисперсія" буде обчислена так, ніби це будь-який набір даних:x=(x1,…,xn)
V(x)=1n∑(xi−x¯)2.
Хороший спосіб обчислити це значення - взяти половину середнього значення всіх різниць у квадраті:
V(x)=1n(n−1)∑j>i(xj−xi)2.
xXn
E(V(X))=1n(n−1)∑j>iE(Xj−Xi)2.
Відмінності - це суми змінних iid,
Xj−Xi=Wi+1+Wi+2+⋯+Wj.
Expand the square and take expectations. Because the Wk are independent and have zero means, the expectations of all cross terms are zero. That leaves only terms like Wk, whose expectation is σ2. Thus
E((Wi+1+Wi+2+⋯+W2j))=(j−i)σ2.
It easily follows that
E(V(X))=1n(n−1)∑j>i(j−i)σ2=n+16σ2.
The covariance between two independent realizations x and y--again in the sense of datasets, not random variables--can be computed with the same technique (but it requires more algebraic work; a quadruple sum is involved). The result is that the expected square of the covariance is
E(C(X,Y)2)=3n6−2n5−3n2+2n480n2(n−1)2σ4.
Consequently the expectation of the squared correlation coefficient between X and Y, taken out to n steps, is
ρ2(n)=E(C(X,Y)2)E(V(X))2=3403n3−2n2+3n−2n3−n.
Although this is not constant, it rapidly approaches a limiting value of 9/40. Its square root, approximately 0.47, therefore approximates the expected absolute value of ρ(n) (and underestimates it).
I am sure I have made computational errors, but simulations bear out the asymptotic accuracy. In the following results showing the histograms of ρ2(n) for 1000 simulations each, the vertical red lines show the means while the dashed blue lines show the formula's value. Clearly it's incorrect, but asymptotically it is right. Evidently the entire distribution of ρ2(n) is approaching a limit as n increases. Similarly, the distribution of |ρ(n)| (which is the quantity of interest) will approach a limit.
This is the R
code to produce the figure.
f <- function(n){
m <- (2 - 3* n + 2* n^2 -3 * n^3)/(n - n^3) * 3/40
}
n.sim <- 1e4
par(mfrow=c(1,4))
for (n in c(3, 10, 30, 100)) {
u <- matrix(rnorm(n*n.sim), nrow=n)
v <- matrix(rnorm(n*n.sim), nrow=n)
x <- apply(u, 2, cumsum)
y <- apply(v, 2, cumsum)
sim <- rep(NA_real_, n.sim)
for (i in 1:n.sim)
sim[i] <- cor(x[,i], y[,i])^2
z <- signif(sqrt(n.sim)*(mean(sim) - f(n)) / sd(sim), 3)
hist(sim,xlab="rho(n)^2", main=paste("n =", n), sub=paste("Z =", z))
abline(v=mean(sim), lwd=2, col="Red")
abline(v=f(n), col="Blue", lwd=2, lty=3)
}