Для детального пояснення свого коментаря я вчив коваріації як міри (середньої) спів-варіації між двома змінними, скажімо, і .xy
Корисно згадати основну формулу (просту для пояснення, не потрібно говорити про математичні тривалості для вступного курсу):
cov(x,y)=1n∑i=1n(xi−x¯)(yi−y¯)
щоб ми чітко бачили, що кожне спостереження може позитивно чи негативно сприяти коваріації залежно від добутку їх відхилення від середнього значення двох змінних та . Зауважте, що я не кажу тут про величину, а просто про ознаку внеску i-го спостереження.(xi,yi)x¯y¯
Це те, що я зобразив на наступних схемах. Штучні дані були створені за допомогою лінійної моделі (ліворуч, ; праворуч, , де були з гауссового розподілу з нульовим середнім значенням і , і від рівномірного розподілу на проміжку ).y=1.2x+εy=0.1x+εεSD=2x[0,20]
Вертикальні та горизонтальні смуги представляють середнє значення та відповідно. Це означає, що замість "перегляду окремих спостережень" з походження ми можемо це зробити з . Це просто означає переклад на осі x і y. У цій новій системі координат кожне спостереження, розташоване у верхньому правому або нижньому лівому квадранті, позитивно сприяє коваріації, тоді як спостереження, розташовані в двох інших квадрантах, сприяють цьому негативно. У першому випадку (зліва) коваріація дорівнює 30.11, а розподіл у чотирьох квадрантах наведено нижче:xy(0,0)(x¯,y¯)
+ -
+ 30 2
- 0 28
Зрозуміло, що коли значення вище їх середнього значення, то зробіть відповідні (wrt. ). Око-сальники форми 2D хмара точок, коли значення збільшення значення , як правило , теж зростає. (Але пам’ятайте, ми могли б також використати той факт, що між коваріацією та нахилом лінії регресії існує чітка залежність, тобто .)xiyiy¯xyb=Cov(x,y)/Var(x)
У другому випадку (справа, той самий ) коваріація дорівнює 3,54, а розподіл по квадрантах є більш "однорідним", як показано нижче:xi
+ -
+ 18 14
- 12 16
Іншими словами, існує збільшена кількість випадків, коли 'і ' не коваріють в одному напрямку wrt. їхні засоби.xiyi
Зауважте, що ми могли б зменшити коваріацію шляхом масштабування або чи . На лівій панелі коваріація (або ) зменшується на десять разів (3.01). Оскільки одиниці вимірювання та поширення і (відносно їхніх засобів) ускладнюють інтерпретацію значення коваріації в абсолютних величинах, ми зазвичай масштабуємо обидві змінні за їх стандартними відхиленнями і отримуємо коефіцієнт кореляції. Це означає, що крім перецентрування нашого розсіювача наy ( x / 10 , y ) ( x , y / 10 ) x y ( x , y ) ( ˉ x , ˉ y ) x yxy(x/10,y)(x,y/10)xy(x,y)(x¯,y¯)ми також масштабуємо одиницю x- і y з точки зору стандартного відхилення, що призводить до більш інтерпретованої міри лінійної коваріації між і .xy