Чому випадкові прогулянки взаємопов'язані?


27

Я помітив, що в середньому абсолютне значення коефіцієнта кореляції Пірсона є постійним близьким до будь-якої пари незалежних випадкових прогулянок, незалежно від довжини ходи.0.560.42

Чи може хтось пояснити це явище?

Я очікував, що кореляція стане меншою, оскільки довжина ходи збільшується, як і у будь-якій випадковій послідовності.

Для своїх експериментів я використовував випадкові гауссові прогулянки із середнім кроком 0 та ступенем стандартного відхилення 1.

ОНОВЛЕННЯ:

Я забув відцентрувати дані, тому це було 0.56замість цього 0.42.

Ось сценарій Python для обчислення кореляцій:

import numpy as np
from itertools import combinations, accumulate
import random

def compute(length, count, seed, center=True):
    random.seed(seed)
    basis = []
    for _i in range(count):
        walk = np.array(list(accumulate( random.gauss(0, 1) for _j in range(length) )))
        if center:
            walk -= np.mean(walk)
        basis.append(walk / np.sqrt(np.dot(walk, walk)))
    return np.mean([ abs(np.dot(x, y)) for x, y in combinations(basis, 2) ])

print(compute(10000, 1000, 123))

Перша моя думка полягає в тому, що в міру того, як ходьба стає довшою, можна отримати значення з більшою величиною, і кореляція підбирається на цьому.
Джон Павло

Але це би спрацювало з будь-якою випадковою послідовністю, якщо я правильно вас розумію, але постійні кореляції мають лише випадкові прогулянки.
Адам

4
Це не просто будь-яка «випадкова послідовність»: кореляції надзвичайно високі, оскільки кожен термін знаходиться лише на один крок від попереднього. Також зауважте, що коефіцієнт кореляції, який ви обчислюєте, не є коефіцієнтом випадкових змінних: це коефіцієнт кореляції для послідовностей (вважається просто парними даними), який становить велику формулу, що включає різні квадрати та відмінності всіх терміни в послідовності.
whuber

10
Ви говорите про співвідношення між випадковими прогулянками (по серіях не в межах однієї серії)? Якщо так, то це тому, що ваші незалежні випадкові прогулянки інтегровані, але не спільно інтегровані, що є добре відомою ситуацією, коли з’являться помилкові кореляції.
Кріс Хауг

8
Якщо взяти першу різницю, ви не знайдете кореляції. Тут є ключовою відсутністю стаціонарності.
Павло

Відповіді:


24

Ваші незалежні процеси не співвідносяться! Якщо і Y t є незалежними випадковими прогулянками:XtYt

  • Коефіцієнт кореляції, безумовний за часом, не існує. (Не кажіть про .)Corr(X,Y)
  • Для будь-якого часу , Corr ( X t , Y t ) дійсно дорівнює 0.tCorr(Xt,Yt)
  • Але вибіркова статистика на основі середніх часових рядів ні до чого не сходиться! Коефіцієнт вибіркової кореляції, який ви обчислили на основі усереднення кількох спостережень у часі , безглуздо.

Інтуїтивно ви можете здогадатися (неправильно), що:

  1. Незалежність між двома процесами і { Y t } означає, що вони мають нульову кореляцію. (Для двох випадкових прогулянок Corr ( X , Y ) не існує.){Xt}{Yt}Corr(X,Y)
  2. Часових рядів, зразок кореляції ρ X Y (тобто коефіцієнта кореляції , розрахованого з використанням часових рядів, зразки , такі як статистичні дані ^ μ Х = 1ρ^XY) буде збігатися на коефіцієнт кореляції популяціїρXYякT.μX^=1Tτ=1TXτρXYT

Проблема в тому, що жодне з цих тверджень не відповідає дійсним прогулянкам! (Це справедливо для кращих процесів, що ведуться.)

Для нестаціонарних процесів:

  • Ви можете говорити про співвідношення між процесами і { Y t } в будь-які два конкретні моменти часу (наприклад, Corr ( X 2 , Y 3 ) - цілком доцільне твердження.){Xt}{Yт}Кор(Х2,Y3)
  • Але не має сенсу говорити про кореляцію між двома серіями безумовними в часі! не має чітко визначеного значення.Corr(X,Y)

Проблеми у випадку випадкової прогулянки?

  1. Для випадкової прогулянки безумовні моменти населення (тобто які не залежать від часу ), наприклад, E [ X ] , не існують. (У деякому вільному сенсі вони нескінченні.) Аналогічно, безумовний коефіцієнт кореляції ρ X Y між двома незалежними випадковими прогулянками не дорівнює нулю; насправді його не існує!tE[X]ρXY
  2. Припущення ергодичних теорем не застосовуються та різні середні часові ряди (наприклад, )несходяться ні до чого, якT. 1TτXτT
    • Для стаціонарної послідовності середній показник часових рядів згодом збіжиться на середньому, безумовному за часом. Але для нестаціонарної послідовності не означає, що це безумовно в часі!

Якщо у вас є різні спостереження за двома незалежними випадковими прогулянками з часом (наприклад, , X 2 тощо) та Y 1 , Y 2 , ....), і ви обчислюєте коефіцієнт кореляції вибірки, ви отримаєте число між - 1 і 1 . Але це не буде наближенням коефіцієнта кореляції чисельності (якого не існує).X1X2Y1Y211

Замість (розраховується з використанням середніх часових рядів від т = 1 до Т = Т ) збираються бути в основному випадковим змінним (що приймають значення в [ - 1 , 1 ] ) , який відображає два конкретних шляху випадкові прогулянки відбулися випадково (тобто шляхи, визначені малюнком ω, проведені із зразкового простору Ω .) Говорячи надзвичайно вільно (і неточно):ρ^XY(T)t=1t=T[1,1]ωΩ

  • Якщо обидва і Y т трапилося бродити в тому ж напрямку, ви будете виявляти паразитні позитивні відносини.XtYt
  • Якщо і Y t блукали в різних напрямках, ви виявите помилкові негативні стосунки.XtYt
  • Якщо і Y t траплялися досить один за одним, ви виявите відношення майже до нуля.XtYt

Ви можете більше дізнатися про це за допомогою термінів spurious regression random walk.

Випадкова прогулянка не є нерухомою, а середні показники з часом не збігаються з тим, що ви отримали, взявши iid малюнки ω з пробіру Ω . Як було сказано в коментарях вище, ви можете взяти перші відмінності Δ x t = x t - x t - 1, а для випадкової прогулянки цей процес { Δ x t } є нерухомим.tωΩΔxt=xtxt1{Δxt}

Ідея великої картини:

Кілька спостережень у часі НЕ збігаються з декількома малюнками з пробного простору!

Нагадаємо, що дискретний стохастичний процес у часі є функцією як часу ( t N ), так і простору вибірки Ω .{Xt}tNΩ

Щоб середні з часом збігалися до очікувань щодо вибіркового простору Ω , вам потрібна стаціонарність та ергодичність . Це головна проблема в аналізі багатьох часових рядів. І випадкова прогулянка не є стаціонарним процесом.tΩ

Підключення до відповіді WHuber:

Якщо ви можете брати середні показники за декілька моделей (тобто брати кілька нічиїх від ), а не змушувати брати середні значення за час t , ряд ваших проблем зникає.Ωt

Ви можете, звичайно , визначити ρ X Y ( т ) як коефіцієнт кореляції вибірки , обчисленої на X 1 ... X т і Y 1 ... Y т , і це буде також стохастичний процес.ρ^XY(t)X1XtY1Yt

Ви можете визначити деяку випадкову змінну як:Zt

Zt=|ρ^XY(t)|

Для двох випадкових прогулянок, що починаються з з кроком N ( 0 , 1 ) , легко знайти E [ Z 10000 ] за допомогою імітації (тобто взяття декількох малюнків від Ω .)0N(0,1)E[Z10000]Ω

Нижче я провів моделювання 10 000 обчислень вибіркового коефіцієнта кореляції Пірсона. Кожен раз, коли я:

  • Імітовані дві випадкові прогулянки довжиною 10 000 (з нормально розподіленими кроками, проведені з ).N(0,1)
  • Розрахували коефіцієнт кореляції вибірки між ними.

Нижче наведена гістограма, що показує емпіричний розподіл на 10000 обчислених коефіцієнтів кореляції.

enter image description here

Ви можете чітко спостерігати , що випадкова величина р X Y ( 10000 ) може бути всюди в інтервалі [ - 1 , 1 ] . Для двох фіксованих шляхів X і Y коефіцієнт кореляції вибірки не збігається ні до чого, оскільки тривалість часового ряду збільшується.ρ^XY(10000)[1,1]XY

З іншого боку, для певного часу (наприклад. ), коефіцієнт кореляції вибірки є випадковою величиною з кінцевим середнім і т.д. ... Якщо взяти абсолютне значення і обчислити середнє по всьому моделювання, Я обчислюю приблизно .42. Я не впевнений, чому ви хочете це зробити чи чому це взагалі має значення ??, але, звичайно, ви можете.t=10,000

Код:

for i=1:10000 
  X = randn(10000,2); 
  Y = cumsum(X); 
  z(i) = corr(Y(:,1), Y(:,2));
end;
histogram(z,20);
mean(abs(z))

Оскільки розмір вибірки, очевидно, не є кінцевим, ваші твердження про різні кількості, які не існують, є дивними. Важко зрозуміти, як ваші символи ставляться до ситуації, описаної ОП.
whuber

Ваш розмір зразка НІКОЛИ не йде до нескінченності! Поки ви малюєте зразки за допомогою комп’ютера, ( тільки в чистому математиці ви можете робити такі припущення ). І що це означає: Оскільки у вас нескінченно багато очок, це не сходиться? Де ти це читав?
Mayou36

@whuber Сподіваємось, ця версія трохи зрозуміліша. Я вважаю, що ОП запитує, чому коефіцієнт кореляції вибірки (заснований на середніх часових рядах) між двома кінцевими сегментами випадкових прогулянок не дорівнює нулю, навіть для часових рядів величезної довжини. Принципова проблема полягає в тому, що для випадкової прогулянки різні моменти населення не існують, а середні часові ряди не сходяться ні до чого.
Меттью Ганн

Тим не менш, для фіксованих все скінчено. Крім того, очікування абсолютної вибірки коефіцієнта кореляції робить сходитися , як п зростає! Зауважимо також, що питання стосується абсолютного значення цього коефіцієнта. Його очікування (очевидно) дорівнює нулю. nn
whuber

1
@whuber Ви маєте на увазі для фіксованої довжини часового ряду , все скінчено? (так, я згоден з цим.) Очікування кореляції вибірки дорівнює нулю (так, я згоден з цим). Оскільки t зростає, то кореляція вибірки, хоча не збігається в одній точці. Для двох випадкових відрізків ходу довільної довжини коефіцієнт кореляції вибірки не такий вже й далекий від випадкового виведення з рівномірного розподілу на [0, 1] (див. Гістограму). tt
Меттью Ганн

15

Математика, необхідна для отримання точного результату, безладна, але ми можемо отримати точне значення для очікуваного коефіцієнта кореляції у квадраті порівняно безболісно. Це допомагає пояснити , чому значення близько продовжує демонструвати і чому збільшення довжини п випадкового блукання не змінить речі.1/2n

Існує потенція для плутанини щодо стандартних термінів. Абсолютна кореляція, про яку йдеться у запитанні, разом зі статистикою, яка її складає - дисперсії та коваріації - є формулами, які можна застосувати до будь-якої пари реалізацій випадкових прогулянок. Питання стосується того, що відбувається, коли ми дивимось на багато незалежних реалізацій. Для цього нам потрібно прийняти очікування щодо процесу випадкової прогулянки.


(Редагувати)

Перш ніж ми продовжимо, я хочу поділитися з вами деякими графічними відомостями. Пара незалежних випадкових прогулянок - випадкова хода у двох вимірах. Ми можемо побудувати шлях, який крокує від кожного ( X t , Y t ) до X t + 1 , Y t + 1 . Якщо цей шлях має тенденцію донизу (зліва направо, побудований на звичайних осях XY), то для того, щоб вивчити абсолютне значення кореляції , відкинемо всі значення Y. Накресліть прогулянки по осях розміром, щоб дати X і(X,Y)(Xt,Yt)Xt+1,Yt+1YX значення рівні стандартні відхилення і накладатися найменших квадратів з Y до X . Нахили цих ліній будуть абсолютними значеннями коефіцієнтів кореляції, лежачи завжди між 0 і 1 .YYX01

Цей малюнок показує таких прогулянок, кожна довжиною 960 (зі стандартними нормальними відмінностями). Маленькі відкриті кола позначають свої вихідні точки. Темні кола позначають їх кінцеві місця.15960

Figure

Ці схили, як правило, досить великі. Ідеально випадкові розсіювачі цих багатьох точок завжди мали б нахили дуже близькі до нуля. Якби нам довелося описати закономірності, що виникають тут, можна сказати, що більшість 2D випадкових прогулянок поступово мігрують з одного місця в інше. (Однак, це не обов'язково їх місце початку та кінцевої точки!) Приблизно половина часу міграція відбувається в діагональному напрямку - і нахил відповідно високий.

У решті цього посту наводиться аналіз цієї ситуації.


Випадкова хода - це послідовність часткових сум ( W 1 , W 2 , ... , W n ), де W i є незалежними однаково розподіленими нульовими середніми змінними. Нехай їх спільна дисперсія буде σ 2 .(Xi)(W1,W2,,Wn)Wiσ2

У реалізації такої прогулянки, "дисперсія" буде обчислена так, ніби це будь-який набір даних:x=(x1,,xn)

V(x)=1n(xix¯)2.

Хороший спосіб обчислити це значення - взяти половину середнього значення всіх різниць у квадраті:

V(x)=1n(n1)j>i(xjxi)2.

xXn

E(V(X))=1n(n1)j>iE(XjXi)2.

Відмінності - це суми змінних iid,

XjXi=Wi+1+Wi+2++Wj.

Expand the square and take expectations. Because the Wk are independent and have zero means, the expectations of all cross terms are zero. That leaves only terms like Wk, whose expectation is σ2. Thus

E((Wi+1+Wi+2++Wj2))=(ji)σ2.

It easily follows that

E(V(X))=1n(n1)j>i(ji)σ2=n+16σ2.

The covariance between two independent realizations x and y--again in the sense of datasets, not random variables--can be computed with the same technique (but it requires more algebraic work; a quadruple sum is involved). The result is that the expected square of the covariance is

E(C(X,Y)2)=3n62n53n2+2n480n2(n1)2σ4.

Consequently the expectation of the squared correlation coefficient between X and Y, taken out to n steps, is

ρ2(n)=E(C(X,Y)2)E(V(X))2=3403n32n2+3n2n3n.

Although this is not constant, it rapidly approaches a limiting value of 9/40. Its square root, approximately 0.47, therefore approximates the expected absolute value of ρ(n) (and underestimates it).


I am sure I have made computational errors, but simulations bear out the asymptotic accuracy. In the following results showing the histograms of ρ2(n) for 1000 simulations each, the vertical red lines show the means while the dashed blue lines show the formula's value. Clearly it's incorrect, but asymptotically it is right. Evidently the entire distribution of ρ2(n) is approaching a limit as n increases. Similarly, the distribution of |ρ(n)| (which is the quantity of interest) will approach a limit.

Figure

This is the R code to produce the figure.

f <- function(n){
  m <- (2 - 3* n + 2* n^2 -3 * n^3)/(n - n^3) * 3/40 
}
n.sim <- 1e4
par(mfrow=c(1,4))
for (n in c(3, 10, 30, 100)) {
  u <- matrix(rnorm(n*n.sim), nrow=n)
  v <- matrix(rnorm(n*n.sim), nrow=n)
  x <- apply(u, 2, cumsum)
  y <- apply(v, 2, cumsum)
  sim <- rep(NA_real_, n.sim)
  for (i in 1:n.sim)
    sim[i] <- cor(x[,i], y[,i])^2
  z <- signif(sqrt(n.sim)*(mean(sim) - f(n)) / sd(sim), 3)
  hist(sim,xlab="rho(n)^2", main=paste("n =", n), sub=paste("Z =", z))
  abline(v=mean(sim), lwd=2, col="Red")
  abline(v=f(n), col="Blue", lwd=2, lty=3)
}

Моя оцінка на основі моделювання в Монте-Карло Е[ρ2] для Т=100приблизно приблизно .24 (що, здається, погоджується з вашими результатами). Я згоден з вашим аналізом тут. Ви можете дізнатися, як ОП приходить до його кількості (хоча я обчислюю приблизно .42, а не .56).
Меттью Ганн

Якщо ви можете взяти повторні нічиї з Ω, в аналізі часових рядів немає нічого особливого. Питання (наприклад, ергодичність, стаціонарність тощо) розвиваються тоді, коли ви можете спостерігати лише нові значенняХ просуваючи час т що я припускав, що те, що ОП намагався отримати ... (але, можливо, ні).
Меттью Ганн

1
+1, але яка інтуїція щодо того, чому існує ця позитивна асимптотична цінність 9/40, тоді як наївно можна було б очікувати, що якщо зробити дві дуже довгі випадкові прогулянки, вони повинні мати майже нульову кореляцію, тобто наївно можна очікувати, що розподіл кореляцій зменшиться до нуля, оскільки н росте?
амеба каже: Відновіть Моніку

@amoeba First, I don't fully believe the value of 9/40, but I know it's close to correct. For the intuition, consider that two independent walks Xt and Yt are a random walk (Xt,Yt) in two dimensions. Take any random scatterplot in 2D and measure its eccentricity somehow. It will be rare for it to be perfectly circular. Thus, we expect the mean eccentricity to be positive. That there is a limiting distribution for random walks merely reflects the self-similar "fractal" nature of this 2D walk.
whuber

2
Асимптотичний аналіз розглянутих тут питань може бути знайдений у Phillips (1986), теорема 1e .
Крістоф Ганк
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.