Очікуване значення хибної кореляції


12

Ми малюємо зразків, кожен розміром , незалежно від нормального розподілу.n ( μ , σ 2 )Nn(μ,σ2)

Тоді з зразків вибираємо 2 зразки, які мають найвищу (абсолютну) співвідношення Пірсона один з одним.N

Яке очікуване значення цього співвідношення?

Дякую [PS Це не домашнє завдання]


2
(+1) Це спричинило б досить складне домашнє завдання :-). Вам потрібна загальна відповідь чи ви могли (можливо) зосередити свою увагу на конкретних значеннях N або n ? Наприклад, можливо, можна розробити хороші наближення, коли n набагато більший за N ; в інших випадках потрібні різні наближення.
whuber

1
Я сподівався на загальний відповідь, але один , де припущення n>>N буде ОК! Для конкретних значень N і n це було б не так цікаво, так як я можу розглянути такі конкретні випадки за допомогою імітації (це те, що я роблю на даний момент), але це все ще може зацікавити.
П Селлаз

1
Я думаю, що загальне рішення будь-якої реальної корисності, ймовірно, малоймовірне, хоча я можу помилитися. Він досить тісно пов'язаний з деякими відкритими проблемами на межі геометрії та лінійної алгебри. У додатках потреба в інформації про такі кількості виникає, наприклад, у стисненому зондуванні.
кардинал

1
FWIW, це результат моделювання, яке я щойно виконував: використовуючи Normal (0,1), я виявив, що середня кореляція, (понад 1000 моделювання) та кількість зразків N приблизно пов'язані з ρ = 0,025 + 0,113 ln ( N ) - 0,008 ln ( N ) 2 при n = 100 і 4 N nρN
ρ=0.025+0.113ln(N)0.008ln(N)2
n=1004Nnз використанням лінійної регресійної моделі. Підгонка моделі та звичайна діагностика виявилися досить хорошими. Я також виявив, що середня кореляція була приблизно нормально розподілена (хоча і злегка нахилена).
П Селлаз

Відповіді:


9

Я знайшов таку статтю, яка стосується цієї проблеми: Jiang, Tiefeng (2004). Асимптотичні розподіли найбільших записів зразкових кореляційних матриць. Аннали прикладної ймовірності, 14 (2), 865–880

ρ i j i j n i jLn=max1i<jN|ρij|ρijijnij

a = lim n n / N N n

limnPr[nLn24logn+log(log(n))y]=exp(1a28πexp(y/2)),
де вважається, що існує в папері, а - функція .a=limnn/NNn

Мабуть, цей результат стосується будь-яких розподілів розподілу з достатньою кількістю кінцевих моментів ( Редагувати: Див. Коментар @ кардинала нижче). Цзян вказує, що це надзвичайний розподіл цінностей типу I. Розташування та масштаб є

σ=2,μ=2log(1a28π).

Очікуване значення розподілу EV-I типу - , де позначає константу Ейлера. Однак, як зазначається в коментарях, конвергенція розподілу сама по собі не гарантує зближення засобів до обмеження розподілу.γμ+σγγ

Якби ми могли в такому випадку показати такий результат, тоді асимптотичне очікуване значеннябуло бnLn24logn+log(log(n))

limnE[nLn24logn+log(log(n))]=2log(a28π)+2γ.

Зауважимо, що це дало б асимптотичне очікуване значення найбільшої кореляції у квадраті, тоді як у питанні було задано очікуване значення найбільшого абсолютного співвідношення. Тож не на 100% там, а близько.

Я зробив кілька коротких симуляцій, які змусили мене думати або 1) є проблема з моїм моделюванням (ймовірно), 2) є проблема з моєю транскрипцією / алгеброю (також, ймовірно), або 3) наближення не вірно для значення і я використав. Можливо, ОП може зважити деякі результати моделювання, використовуючи це наближення?nN


2
І вбік: мені дуже сподобалось це питання - я раніше замислювався над цим питанням. Мене здивувало зв’язок з дистрибутивом Type-I - я виявив, що це досить круто. Я просто хочу, щоб я зрозумів математику, яка веде до цього ...
jmtroos

1
(+1) Приємна знахідка !! Я думаю, що можна припустити, що позитивний квадратний корінь цього еквівалентний очікуваному значенню найбільшої абсолютної кореляції? У вашому вираженні для очікування, чи не можемо ми просто вийняти всі частини, що включають щоб отримати: ? У всякому разі, я порівняв це зі своїми симуляціями, і це виглядає досить близько! Мій код R дійсно неохайний, тому я спробую привести його пізніше сьогодні чи завтра і опублікувати його ...Lnn
E[Ln2]=1n{2log(N2n28π)+2γ+4lognlog(log(n))}
P Sellaz

До речі, документ доступний безпосередньо звідси projecteuclid.org/DPubS/Repository/1.0/…
P Sellaz

3
(+1) Це дуже приємний папір, і я лише його зняв, але тут нам потрібно бути трохи обережними . Деякі зауваження: ( 1 ) Результати призначені для режиму , тому розмірність векторів повинна зростати приблизно пропорційно кількості векторів, що розглядаються для цих результатів. тримати. ( 2 ) Навіть у цьому випадку результати не стосуються "будь-якого" розподілу; Дійсно, умови в статті вимагають, щоб випадкові величини були "майже експоненціально обмеженими" в тому сенсі, що ми, по суті, вимагаємо, щоб 30-й момент був кінцевим! (продовження)n/pγ(0,)
кардинал

3
(продовження) ( 3 ) Конвергенція розподілу не гарантує конвергенцію засобів до обмеження розподілу. Для цього ми зазвичай використовуємо щось подібне до рівномірної інтеграції множини . Це не було показано в роботі, оскільки, маючи справу з розподілом надзвичайних значень, цілком може бути неправдою. Один з моїх улюблених прикладів цього явища - це послідовність випадкових змінних, яка переходить у розподілі до , але можна зробити засоби для сходження до будь-якої обраної позитивної постійної. χ 2 1{Ln}χ12
кардинал

2

Далі до відповіді, наданої @jmtroos, нижче наведено деталі мого моделювання та порівняння з походженням @ jmtroos з очікуванням від Jiang (2004) , тобто:

E[Ln2]=1n{2log(N2n28π)+2γ+4lognlog(log(n))}

Значення цього очікування, здається, вище модельованих значень для малого і нижче для великого і вони, схоже, незначно розходяться в міру збільшенняОднак різниці зменшуються для збільшення , як ми могли б очікувати, оскільки папір стверджує, що розподіл є асимптотичним. Я спробував різні . Наведене нижче моделювання використовує . Я досить новачок у R, тому будь-які підказки чи пропозиції, щоб покращити свій код, були б дуже раді.N N n n n [ 100 , 500 ] n = 200NNNnn[100,500]n=200

set.seed(1)

ns <- 500
# number of simulations for each N

n <- 200
# length of each vector

mu <- 0
sigma <- 1
# parameters for the distribution we simulate from

par(mfrow=c(5,5))
x<-trunc(seq(from=5,to=n, length=20))
#vector of Ns

y<-vector(mode = "numeric")
#vector to store the mean correlations

k<- 1
#index for y

for (N in x) {
# loop over a range of N

    dt <- matrix(nrow=n,ncol=N)

    J <- vector(mode = "numeric")
    # vector to store the simulated largest absolute 
    # correlations for each N

    for (j in 1:ns) {
    # for each N, simulated ns times    

      for (i in 1:N) {
        dt[,i] <- rnorm(n,mu,sigma)
      }
      # perform the simulation

      M<-matrix(cor(dt),nrow=N,ncol=N)
      m <- M
      diag(m) <- NA
      J[j] <- max(abs(m), na.rm=TRUE)   
      # obtain the largest absolute correlation
      # these 3 lines came from stackoverflow
  }

    hist(J,main=paste("N=",N, " n=",n, " N(0,1)", "\nmean=",round(J[j],4))) 
    y[k]<-mean(J)
    k=k+1
}

lm1 <- lm(y~log(x))
summary(lm1)

logx_sq=log(x)^2
lm2<-lm(y~log(x)+logx_sq)
summary(lm2)
# linear models for these simulations

# Jiang 2004 paper, computation:

gamma = 0.5772
yy <- vector(mode = "numeric")
yy <- sqrt((2*log((x^2)/(sqrt(8*pi)*n^2)) + 2*gamma-(-4*log(n)+log(log(n))))/n)


plot(x,yy)
# plot the simulated correlations
points(x,y,col='red')
# add the points using the expectation

Дивіться мої коментарі до іншої відповіді, що може (або не може) допомогти пояснити деякі невідповідності, які ви зазначаєте.
кардинал
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.