Якщо A і B співвідносяться з C, чому A і B не обов'язково співвідносяться?


62

Я емпірично знаю, що це так. Я щойно розробив моделі, які натрапляють на цю загадку. Я також підозрюю, що це не обов'язково відповідь так / ні. Я маю на увазі те, що якщо A і B співвідносяться з C, це може мати певний вплив на співвідношення між A і B. Але це може бути слабким. Це може бути лише вказівний напрямок і більше нічого.

Ось, що я маю на увазі ... Скажімо, і A, і B мають 0,5 кореляції з C. Враховуючи це, кореляція між A і B цілком може бути 1,0. Я думаю, що він також може бути 0,5 або навіть нижче. Але, я думаю, навряд чи це було б негативно. Чи згодні ви з цим?

Також чи є наслідки, якщо ви розглядаєте стандартний коефіцієнт кореляції Пірсона або замість цього коефіцієнт кореляції Спірмена (ранг)? Мої останні емпіричні спостереження були пов'язані з коефіцієнтом кореляції Спірмена.


38
Прикладом може служити взяти , , і . Ми можемо взяти і , щоб бути незалежними, але обидва і корельовані (позитивно, Пірсон) з . B = Y C = X + Y X Y A B CA=XB=YC=X+YXYABC

1
Дякую, це насправді чудовий коментар. Короткий, але він фіксує суть причини, чому це так.
Sympa

Відповіді:


53

Оскільки кореляція є математичною властивістю багатовимірних розподілів, деяке розуміння можна отримати виключно за допомогою обчислень, незалежно від статистичного генезу цих розподілів.

Для кореляції Пірсона , розглянуть multinormal змінних , , . З ними корисно працювати, тому що будь-яка негативна певна матриця насправді є матрицею коваріації деяких багатонормальних розподілів, тим самим вирішуючи питання існування. Якщо ми будемо дотримуватися матриць з по діагоналі, позадіагональні записи матриці коваріації будуть їх співвідношеннями. Запис кореляції і як , співвідношення і як , і співвідношення і якY Z 1 X Y ρ Y Z τ X Z σXYZ1XYρYZτXZσ , ми обчислимо це

  • 1+2ρστ(ρ2+σ2+τ2)0 (тому що це визначник матриці кореляції і не може бути від'ємним).

  • Коли це означає, що . Інакше кажучи: коли і і великі за величиною, і повинні мати ненульову кореляцію.ρ 2 + τ 21 ρ τ X Zσ=0ρ2+τ21ρτXZ

  • Якщо , то можливе будь-яке негативне значення (від до звичайно).σ 0 1ρ2=τ2=1/2σ01

  • Коли , допустимі негативні значення . Наприклад, коли , може знаходитися в будь-якому місці між та .сг р = τ = 1 / 2 СГА - 1 / 2 1ρ2+τ2<1σρ=τ=1/2σ1/21

Ці міркування означають, що дійсно існують певні обмеження щодо взаємних кореляцій. Обмеження (які залежать лише від негативної визначеності матриці кореляції, а не від фактичних розподілів змінних) можуть бути посилені залежно від припущень щодо одновимірних розподілів. Наприклад, легко помітити (і довести), що коли розподіли і не в одній і тій же сім'ї масштабу локації, їх кореляція повинна бути строго меншою за . (Доведення: з співвідношення випливає, що і лінійно пов'язані як)Y 1 ± 1 X YXY1±1XY

Наскільки Спірмена рангові кореляції йдуть, розглянемо три trivariate спостереження , і з . Їх взаємні рангові співвідношення становлять , та . Таким чином , навіть знак рангу кореляції і можуть бути протилежний ознаки кореляції і і і .( 2 , 3 , 1 ) ( 3 , 2 , 3 ) ( X , Y , Z )(1,1,2)(2,3,1)(3,2,3)(X,Y,Z)1 / 2 - 1 / 2 Y Z X У Й Z1/21/21/2YZXYXZ


whuber, що таке "багатонормальні змінні"?
Sympa


Як завжди, при найбільш ретельному поясненні ви отримуєте заслужену галочку "Найкраща відповідь".
Sympa

@Gaetan Lion Ви дуже добрі. Я із задоволенням прочитав усі відповіді на це питання (і позначив їх усі).
whuber

88

Я зараз на щорічній риболовлі. Існує залежність між часом доби риболовлі та кількістю риби, яку я ловлю. Існує також кореляція між величиною принади, яку я вживаю, та кількістю риби, яку я виловлю. Не існує кореляції між розміром приманки та часом доби.


Василю, я люблю це! +1 для простого англійського пояснення.
Sympa

Найкраще. Відповідь. На stats.stackexchange. Колись
Кріс Білі

1
Це описує випадок, коли кореляції низькі для початку, але це не пояснює випадок, коли кореляції вищі. Якщо є 80% співвідношення з часом доби, і є 80% співвідношення з розміром наживки, я можу гарантувати, що ви використовуєте більшу приманку протягом дня!
користувач35581

2
@ user35581 ні, ви не можете - ви пропускаєте всю точку. Щогодини він міг ловити рибу один раз з маленькою приманкою і один раз з великою приманкою. Він все одно може ловити більше риби протягом певних частин дня (кореляція на 80%) та ловити більше риби з більшою наживкою (кореляція на 80%), а між величиною принади, яку він використовує, та часом доби існує 0 кореляцій. Це може бути навіть негативним співвідношенням, якщо він використовує більшу приманку частіше в неробочий час доби, щоб компенсувати поганий час доби. Тож ви насправді нічого не знаєте про співвідношення часу доби та розміру приманки.
rysqui

2
@rysqui Вибачте, мій коментар був погано сформульований, але пункт, який я намагався зробити, був такий: коли кореляція між функціями та ціллю стає дуже високою, то і ваші функції повинні бути співвіднесені. Отже, якщо ви маєте ідеальну кореляцію між часом доби та розміром улову та ідеальним співвідношенням між розміром приманки та розміром улову, то ви також повинні мати ідеальну кореляцію між розміром приманки та часом доби, отже, остаточне твердження "ви використовуєте більшу приманку протягом дня". Майте на увазі, що це крайній випадок!
користувач35581

20

Кореляція - це косинус кута між двома векторами. У описаній ситуації (A, B, C) - це потрійна кількість спостережень, зроблених n разів, кожне спостереження - реальне число. Кореляція між A і B - це косинус кута між і , виміряний у n-мірному евклідовому просторі. Таким чином , наша ситуація зводиться до розгляду 3 векторів , і в п - мірному просторі. У нас є 3 пари векторів і тому 3 кути. Якщо два кути малі (висока кореляція), то й третій також буде малим. Але сказати "корельованим" - це не дуже обмеження: це означає, що кут знаходиться між 0 іV B = B - E ( B ) V A V B V C π / 2 π V A V B V C V A V BVA=AE(A)VB=BE(B)VAVBVCπ/2. Взагалі це не дає обмежень щодо третього кута. Вважаючи це по- іншому, почати з будь-яким кутом менше , ніж між і (будь-кореляції , крім -1). Нехай навпіл кут між і . Тоді C буде корелювати як з A, так і з B.πVAVBVCVAVB


Кореляція +1 щодо кута між багатовимірними векторами для мене інтуїтивно зрозуміла.
Петрус Терон

2
Для ознайомлення з майбутніми читачами я розкриваю
Джейк

18

Як доповнення до відповіді Ваубера: Представлена ​​формула

1+2ρστ(ρ2+σ2+τ2)0 .

можна перетворити на наступну нерівність (Olkin, 1981):

στ(1σ2)(1τ2)ρστ+(1σ2)(1τ2)

Графічне представлення верхніх і нижніх меж для виглядає наступним чином :ρ

введіть тут опис зображення


Олкін, І. (1981). Обмеження діапазону для матриць кореляції продукту-моменту. Психометріка, 46, 469-472. doi: 10.1007 / BF02293804


Чи може хтось мені сказати, чи є деякі з цих прикладів багатоваріантними розподілами, які мають конкретні граничні розподіли, які обмежують діапазон можливих кореляцій між компонентами? Це означає, що кореляція не може перейняти весь діапазон від -1 до 1. Я пам'ятаю, що Фреше був принаймні однією людиною, яка розвинула це в 1950-х. Сьогодні, коли я шукаю літературу, я думаю, що їх зараз називають копаллями Frechet.
Майкл Черник

14

Я думаю, що краще запитати "чому БУДЕ вони співвідноситись?" або, можливо, "Чому має бути якесь конкретне співвідношення?"

Наведений нижче код R показує випадок, коли x1 і x2 обидва корелюються з Y, але мають 0 кореляцію між собою

x1 <- rnorm(100)
x2  <- rnorm(100)
y <- 3*x1 + 2*x2 + rnorm(100, 0, .3)

cor(x1,y)
cor(x2,y)
cor(x1,x2)

Кореляцію з Y можна посилити, зменшуючи .3 до .1 або будь-що інше


На жаль, я не користувач R. Отже, коди вище для мене означають менше, ніж вони означають для вас.
Sympa

2
x1x2y=3x1+2x2yx1x2

14

Я залишу статистичну демонстрацію тим, хто для неї більше підходить, ніж я ... але інтуїтивно скажу, що подія A породжує процес X, який сприяє породженню події C. Тоді A співвідноситься з C (через X). B, з іншого боку, породжує Y, що також формує C. Тому A корелює зі C, B корелює зі C, але A і B не співвідносяться.


1
@Nice. Я думаю, ви маєте на увазі "A і B не співвідносяться" в останній частині останнього речення.
suncoolsu

Так, Ніко з корекцією сонцезахисного судна ... це досить добре пояснення. Ви частково описуєте Path Analysis.
Sympa

Так, вибачте, я змішався з листами;)
nico

1

Для тих, хто хоче деякої інтуїції, співвідношення може розглядатися як косинус деякого кута. Отже, розглянемо три вектори в 3D, скажімо, A, B і C, кожен з яких відповідає одній змінній. Питання полягає у визначенні діапазону можливих кутів між A і C, коли кут між A і B, а також кут між B et C відомі. Для цього ви можете грати з онлайн-інструментом, не встановлюючи жодного програмного забезпечення. Просто перейдіть на сторінку http://www.montefiore.ulg.ac.be/~pierard/chained_correlations.php


0

Візьмемо один приклад:

A={x1,x2,x3,x4,x5,x6,x7,x8,x9}

B={x1,x2,x3,0,0,0,0,0,0}

C={0,0,0,x4,x5,x6,0,0,0}

Для деяких x, A і B матимуть значну кореляцію, аналогічно A і C також матимуть значну кореляцію, але кореляція B і C не буде суттєвою.

Отже, не обов'язково вірно, що якщо A і B співвідносяться, а A і C співвідносяться, то B і C також співвідносяться.

Примітка. Для глибокого розуміння, будь ласка, розгляньте цей приклад на великих даних.


BCx1x6ABCx1x9

Мені подобається відповідь Абхішека Ананда, тому що зрештою все певною мірою співвідноситься з усім іншим. Мені подобається те, як він оцінює це з точки зору статистичної важливості. Після використання цієї рамки стає цілком очевидним, що якщо A і B статистично суттєво співвідносяться з C, то A або B не обов'язково можуть бути статистично суттєво корельованими (використовуючи фактичні рамки мого початкового запитання). Я думаю, що діаграми вентиляції можуть зробити відмінним візуальним поясненням цієї концепції.
Sympa

@whuber Я згоден з тобою. Це лише один зразок прикладу, який пояснює, чому це не потрібно
Абхішек Ананд

Це добре - але, здається, ви маєте помилкове уявлення про те, якими є кореляції між цими векторами. Жодне із ваших тверджень про коефіцієнти кореляції цих векторів, як правило, не є правильним.
whuber
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.