Чому коефіцієнт кореляції між X та XY випадковими змінними, як правило, дорівнює 0,7


49

Взяте з Практичної статистики медичних досліджень, де Дуглас Альтман пише на сторінці 285:

... для будь-яких двох величин X і Y, X буде співвідноситися з XY. Дійсно, навіть якщо X і Y є вибірками випадкових чисел, ми очікуємо, що співвідношення X і XY буде 0,7

Я спробував це в R, і, здається, це так:

x <- rnorm(1000000, 10, 2)
y <- rnorm(1000000, 10, 2)
cor(x, x-y)

xu <- sample(1:100, size = 1000000, replace = T)
yu <- sample(1:100, size = 1000000, replace = T)
cor(xu, xu-yu)

Чому так? Яка теорія стоїть за цим?


Яку частину ви хочете пояснити? Ви просто хочете спрощеного рівняння для кореляції, яка виходить через відому кореляцію між x, і y та коваріацією між x та xy? Або ви просто хочете знати, чому взагалі тут є коваріація?
Джон

Чи правда це для будь-яких і ? Припустимо, і є некорельованими і нехай . Тоді я підозрюю, що не співвідноситься з . XYXZY=XZXXY
Генрі

Відповіді:


69

Якщо і - некорельовані випадкові величини з однаковою дисперсією , то маємо, що Отже,XYσ2

var(XY)=var(X)+var(Y)=var(X)+var(Y)=2σ2,cov(X,XY)=cov(X,X)cov(X,Y)bilinearity of covariance operator=var(X)00 because X and Y are uncorrelated=σ2.
ρX,XY=cov(X,XY)var(X)var(XY)=σ2σ22σ2=12.
Отже, коли ви знайдете вибіркове співвідношення і для великого набору даних отриманий із сукупності з цими властивостями, яка включає "випадкові числа" як особливий випадок, результат має тенденцію бути близьким до значення кореляції сукупності xx-y{(xi,yi):1in}1
i=1n(xix¯)((xiyi)(x¯y¯))i=1n(xix¯)2i=1n((xiyi)(x¯y¯))2
xxy{(xi,yi):1in}120.7071

cov(X,X)-cov(X,Y)=s^2
Скажіть,

5
cov (X, X) - інша назва var (X). cov (X, Y) = 0, оскільки X та Y вважаються некоррельованими (отже, коваріація = 0).
Діліп Сарват

58

Геометрично-статистичне пояснення.

Уявіть, що ви робите "розкинуту зсередини" розсипку, де предметів - осі, а змінні і - точки . Це називається предметним просторовим графіком (на відміну від звичайного сюжетного простору ). Оскільки на графіку є лише 2 бали, всі розміри в такому просторі, за винятком будь-яких двох довільних розмірів, які здатні підтримувати 2 точки плюс походження, є зайвими і їх можна безпечно скинути. І так нам залишається літак. Ми намалюємо векторні стрілки від початку до точок: це наші змінні і як вектори в предметному просторі даних.2 X Y X Yn 2 XYXY

Тепер, якщо змінні були зосереджені, то в предметному просторі косинус кута між їх векторами є їх коефіцієнтом кореляції . На малюнку нижче і вектори ортогональні: їх . Неспорідненість була необхідною умовою, яку окреслив @Dilip у своїй відповіді.Y r = 0XYr=0

Також для змінних в центрі їх довжини вектора в предметному просторі є їх стандартними відхиленнями . На рис, і мають однакову довжину, - однакові відхилення також були обов'язковою умовою @Dilip.YXY

Щоб намалювати змінну чи змінну ми просто використовуємо векторне додавання чи віднімання, про які ми забули ще зі школи (перемістіть вектор Y на кінець X вектора та напрямок обертання у разі віднімання, - це показано сірими стрілками на малюнку, - потім намалюйте вектор туди, куди вказує сіра стрілка).X + YXYX+Y

Стає дуже зрозуміло, що довжина векторів або (стандартне відхилення цих змінних) за теоремою Піфагора , а кут між і або дорівнює 45 градусів, косинус - співвідношення -X + Y XYX+Y XX-YX+Y0.707 ...2σ2XXYX+Y0.707...

введіть тут опис зображення


4
Великий +1 для спільного використання цього підходу.
whuber

(+1) Це дуже акуратний спосіб представити це!
Метт Крауз

А-а ... фотографії! (+1) Молодці. :-)
кардинал

11

Я вважаю, що тут є і проста інтуїція, заснована на симетрії. Оскільки X і Y мають однакові розподіли і мають коваріацію 0, зв’язок X ± Y з X повинен "пояснити" половину варіації X ± Y; інша половина повинна бути пояснена Y. Отже, R 2 повинен бути 1/2, що означає, що R дорівнює 1 / √2 ≈ 0.707.


Це здається приємною інтуїцією, але зауважте, що якщо , то стандартним способом написання буде , а не що може заплутати деяких людей, навіть якщо вони є алгебраїчно рівнозначними. rr2=12r 1/1/21/2
gung - Відновіть Моніку

Ні, це насправді не є більш стандартним. (Якщо вам потрібні докази, подивіться на верхню відповідь. 38 людей, які вже проголосували за це, не посперечалися з такою ж нотацією.)
den333,

Я одна з тих 38 ;-). Питання в тому, що хтось, чия алгебра є досить слабкою, буде найлегше наслідувати? Якщо , то легше побачити, що . г = r2=1/2r=1/2
gung - Відновіть Моніку

3

Ось простий спосіб подумати про те, чому взагалі існує кореляція.

Уявіть, що відбувається, коли ви віднімаєте два розподіли. Якщо значення х низьке, то в середньому x - yце буде нижчим значенням, ніж якщо значення х високе. Зі збільшенням x x - yв середньому збільшується, і, отже, позитивна кореляція.


4
Я не думаю, що ваше твердження завжди відповідає дійсності "Завжди буде математична залежність між двома випадковими розподілами". напр. x <- rnorm(1e6, 0,1) y <- rnorm(1e6, 0,1) $cor((x-y)^2,x-y)$
curious_cat

4
@curious_cat: Або, може бути ще більш сприятливим, киньте yвзагалі. :-)
кардинал
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.