Як би ви пояснили різницю між кореляцією та коваріацією?


109

Після цього питання, як би ви пояснили коваріацію тому, хто розуміє лише середнє значення? , яке стосується питання пояснення коваріації непростої людині, викликало подібне питання в моїй думці.

Як би пояснити неофіту статистики різницю між коваріацією та кореляцією ? Схоже, що обидва посилаються на зміну однієї змінної, пов'язаної назад з іншою змінною.

Як і у згаданому питанні, кращим буде брак формул.

Відповіді:


109

Проблема коваріацій полягає в тому, що їх важко порівняти: коли ви обчислите коваріацію набору висот і ваг, виражених у (відповідно) метрах і кілограмах, ви отримаєте іншу коваріантність, ніж якщо будете робити це в інших одиницях ( що вже створює проблему людям, які роблять те ж саме з метричною системою або без неї!), але також, важко буде сказати, якщо (наприклад) зріст і вага "коварі більше", ніж, скажімо, довжина пальців ніг і пальців , просто тому, що "шкала", на яку розраховується коваріація, різна.

Рішенням цього є «нормалізація» коваріації: ви розділите коваріацію на щось, що представляє різноманітність та масштаб обох коваріатів, і в кінцевому підсумку зі значенням, яке, напевно, буде між -1 і 1: співвідношення. Якою б одиницею не були ваші оригінальні змінні, ви завжди отримаєте однаковий результат, і це також забезпечить, що ви зможете певною мірою порівняти, чи «дві співвідношення» співвідносять більше двох інших, просто порівнявши їх кореляцію.

Примітка: вищевикладене передбачає, що читач вже розуміє поняття коваріації.


2
+1 Ви мали на увазі написати "кореляцію" замість "коваріації" в останньому реченні?
whuber

Ви впевнені, що не можете порівнювати коваріанці з різними одиницями? Одиниці проходять через множину коваріації - якщо ваш X є cm, а ваш Y - s, то ваш . І тоді ви можете просто помножити на результат на одиничний коефіцієнт перетворення. Спробуйте в R:cov(X,Y)=z cmscov(cars$speed,cars$dist) == cov(cars$speed/5,cars$dist/7)*(7*5)
naught101

3
@ naught101 Я підозрюю, що в тому, що якби я сказав вам, що і нічого іншого, у вас би не було поняття, чи сильно прогнозує чи ні, тоді як якщо я сказав, що ви вас є щось трохи більш інтерпретаційне. X Y Cor ( X , Y ) = .9Cov(X,Y)=1010XYCor(X,Y)=.9
хлопець

@guy: Це були б коваріації без одиниць: PI вважає, що важливим є те, що ви не можете легко порівняти ковариації з двох наборів даних, які мають різні відмінності. Наприклад, якщо у вас є відношення B = 2 * A, і два набори даних, {A1, B1} і {A2, B2}, де A1 має дисперсію 0,5 і A2 має дисперсію 2, то буде набагато більшим, ніж , навіть якщо відносини точно такі ж. c o v ( A 1 , B 1 )cov(A2,B2)cov(A1,B1)
naught101

3
Отже, простіше кажучи, кореляція> коваріація
Карл Моррісон

58

Вимоги цих типів питань вражають мене як трохи химерним. Ось математичне поняття / формула, але я хочу поговорити про це в якомусь контексті, повністю позбавленому математичних символів. Я також думаю, що слід констатувати, що фактична алгебра, необхідна для розуміння формул, я думаю, повинна навчатися більшості людей до вищої освіти (розуміння матричної алгебри не потрібно, достатньо просто простої алгебри).

Отже, спочатку замість того, щоб повністю ігнорувати формулу і говорити про неї у деяких магічних та евристичних типах аналогій, давайте просто подивитися формулу і спробувати пояснити окремі компоненти невеликими кроками. Різниця в термінах коваріації та кореляції при перегляді формул повинна стати зрозумілою. Якщо говорити з точки зору аналогій та евристики, я підозрюю, що у багатьох ситуаціях затьмариться дві відносно прості концепції та їх відмінності.

Отже, давайте почнемо з формули коваріації вибірки (це я щойно взяв і прийняв із вікіпедії);

1n1i=1n(xix¯)(yiy¯)

Щоб швидше досягти всіх, давайте чітко визначити всі елементи та операції у формулі.

  • y ixi та це кожне вимірювання двох окремих ознак одного спостереженняyi
  • ˉ yx¯ і - це засоби (або середні значення) кожного атрибутаy¯
  • Для , скажімо, це означає, що ми ділимо кінцевий результат на . n-11n1n1
  • i ni=1n для деяких може бути іноземним символом, тому, ймовірно, було б корисно пояснити цю операцію. Це просто сума всіх розділіть спостереження і є загальна кількість спостережень.in

На цьому етапі я можу запропонувати простий приклад, щоб поставити обличчя на елементи та операції, так би мовити. Так, наприклад, давайте просто скласти таблицю, де кожен рядок відповідає спостереженню (а і позначені відповідним чином). Можливо, можна зробити ці приклади більш конкретними (наприклад, означає вік, а - вагу), але для нашого обговорення це не має значення.y x yxyxy

x y
---
2 5
4 8
9 3
5 6
0 8

У цей момент, якщо ви вважаєте, що сума операції у формулі може бути не повністю зрозуміла, ви можете ввести її ще раз у набагато простішому контексті. Скажіть просто, що - це те саме, що говорити в цьому прикладі;i=1n(xi)

  x
 --
  2
  4
  9
  5
+ 0
 --
 20

Тепер цей безлад слід очистити, і ми можемо пропрацювати другу частину формули . Тепер, припускаючи, що люди вже знають, що означають, та , і я б сказав, будучи лицемірними щодо моїх власних коментарів раніше у публікації, можна просто посилатися на середнє значення з точки зору проста евристика (наприклад, середина розподілу). Потім можна просто взяти цей процес по одній операції за раз. Заява(xix¯)(yiy¯)x¯y¯(xix¯)просто вивчає відхилення / відстань між кожним спостереженням та середнє значення всіх спостережень для даного атрибута. Отже, коли спостереження знаходиться далі від середнього значення, цій операції буде надано більше значення. Потім можна звернутися до наведеної приклади таблиці та просто продемонструвати операцію на векторі спостережень.x

x x_bar (x - x_bar)
2 4     -2
4 4      0
9 4      5
5 4      1
0 4     -4

Операція однакова для вектора, але тільки для підкріплення ви можете також представити цю операцію.y

y y_bar (y - y_bar)
5  6     -1
8  6      2
3  6     -3
6  6      0
8  6      2

Тепер умови та не повинні бути неоднозначними, і ми можемо перейти до наступної операції, ці результати разом, . Як зазначає Гунг у коментарях, це часто називають перехресним продуктом (можливо, корисним прикладом, щоб повернути, якщо вводити основну матричну алгебру для статистики).(xix¯)(yiy¯)(xix¯)(yiy¯)

Візьміть до уваги, що відбувається при множенні, якщо два спостереження обидва - велика відстань вище середнього, то отримане спостереження матиме ще більше позитивне значення (те ж саме, якщо обидва спостереження знаходяться на великій відстані нижче середньої, як множення двох негативів дорівнює позитивному). Також зауважте, що якщо одне спостереження вище середнього, а інше значно нижче середнього, отримане значення буде великим (в абсолютних показниках) і від'ємним (як позитивний раз, від'ємник дорівнює негативному числу). Нарешті зауважте, що коли значення дуже близьке до середнього для будь-якого спостереження, множення двох значень призведе до невеликої кількості. Знову ми можемо просто представити цю операцію в таблиці.

(x - x_bar) (y - y_bar)  (x - x_bar)*(y - y_bar)
-2             -1                2
 0              2                0  
 5             -3              -15 
 1              0                0
-4              2               -8

Тепер, якщо в кімнаті є якісь статистики, вони повинні кипіти з очікуванням в цей момент. Ми можемо побачити всі окремі елементи, що таке коваріація, і як вона розраховується, вступають у гру. Тепер все, що нам потрібно зробити, це підбити підсумковий результат у попередній таблиці, розділити на і вуаля , коваріація вже не повинна бути містичною (усі з лише визначенням одного грецького символу).n1

(x - x_bar)*(y - y_bar)
-----------------------
   2
   0
 -15
   0
+ -8
-----
 -21

-21/(5-1) = -5.25

У цей момент ви можете підкріпити, звідки походить 5, але це має бути таким же простим, як повернення до таблиці та підрахунок кількості спостережень (давайте знову залишити різницю між вибіркою та кількістю населення в інший час).

Тепер коваріація сама по собі нам не дуже говорить (може, але в цьому моменті непотрібно вдаватися до будь-яких цікавих прикладів, не вдаючись до магічних, невизначених посилань на аудиторію). У хорошому випадку ви не будете реально продавати, чому нам байдуже, що таке коваріація, за інших обставин, ви можете просто сподіватися, що ваша аудиторія потрапить у полон, і візьмете на це слово. Але, продовжуючи розвивати різницю між тим, що таке коваріація, і тим, що відповідає, ми можемо просто повернутися до формули кореляції. Щоб запобігти фобії грецького символу, можливо, просто скажіть є загальним символом, який використовується для представлення кореляції.ρ

ρ=Cov(x,y)Var(x)Var(y)

Знову повторю, чисельник у попередній формулі - це просто коваріація, як ми нещодавно визначили, а знаменник - квадратний корінь добутку дисперсії кожного окремого ряду. Якщо вам потрібно визначити саму дисперсію, ви можете просто сказати, що дисперсія - це те саме, що коваріація ряду з самим собою (тобто ). І всі ті самі поняття, які ви ввели з коваріацією, застосовуються (тобто, якщо серія має багато значень, далеких від її середнього, вона матиме велику дисперсію). Можливо, тут зауважте, що серія також не може мати негативну дисперсію (яка логічно повинна випливати з математики, представленої раніше).Cov(x,x)=Var(x)

Тож єдині нові компоненти, які ми ввели, знаходяться в знаменнику . Отже, ми ділимо щойно обчислену коваріацію на добуток дисперсій кожної серії. Можна звернутися до трактування того, чому поділ на завжди призведе до значення від -1 до 1, але я підозрюю, що нерівність Коші-Шварца слід залишити з порядку денного для ця дискусія. Отже, я знову лицемір і вдаюсь до деяких, прийміть моє слово , але в цей момент ми можемо представити всі причини, чому ми використовуємо коефіцієнт кореляції. Потім можна пов'язати ці уроки з математики назад до евристики, наведеної в інших твердженнях, таких як відповідь Пітера ФломаVar(x)Var(y)Var(x)Var(y)до одного з інших питань. Незважаючи на те, що це було піддано критиці за введення концепції в термінах причинно-наслідкових висловлювань, це заняття має бути на порядку денному також в якийсь момент.

Я розумію, що за деяких обставин такий рівень лікування не був би відповідним. Сенат потребує резюме виконавців . У цьому випадку добре ви можете посилатися на просту евристику, яку люди використовували в інших прикладах, але Рим не був побудований за день. А сенатові, котрий просить підвести підсумки, якщо у вас так мало часу, можливо, вам слід просто взяти моє слово на це і не обійтися формальностями аналогій і пунктів.


4
Я повністю погоджуюся з думкою, що питання якимось чином не відповідає цілі цього форуму. Визначення коваріації як є найяскравішим пояснення можна запропонувати. Тут використовується лише поняття очікування. Уникнення формули призводить до обов'язково неповних і потенційно оманливих версій. І це не може забезпечити читача людиною для обчислення коваріації / кореляції в новій ситуації. Не найкращий спосіб боротьби з безліччю.
cov(X,Y)=E[(XE[X])(YE[Y])]
Сіань

14
+1, це досить добре. Я не був би таким критичним до концептуальних вступів. Я працював з людьми з достатньою математичною тривожністю, що показ формули, ймовірно, втратить їх. Зазвичай я їх добираю до того, щоб швидше перейнятись інтуїцією, а потім пройтися по математиці просто та ретельно (настільки, як ти тут) після цього . Таким чином, вони просто вивчають, як математика представляє те, що вони вже знають, і якщо вони розумово відмовляться, вони все-таки засвоїли великі ідеї. Як дотична точка, я працюю над математикою в Excel, що я вважаю дуже гарним для цього.
gung

2
Пару ниткоподібних вибачень (вибачте): у верхньому рівнянні ви ділите на , але потім (правильно) обговоріть ділення на у відповідній точці кулі; Я можу зазначити, що називається "перехресним продуктом"; оскільки ви говорили про коваріацію вибірки , коли ви переходите до кореляції, я можу пропустити інформацію про і просто використовувати ; нарешті, кореляція обчислюється від коваріації шляхом масштабування її відносно SD , а не відхилень, див. тут , наприклад. N - 1 ( x i - ˉ x ) ( y i - ˉ y ) ρ rNN1(xix¯)(yiy¯)ρr
gung

Завдяки @gung, я змінив друкарську помилку в першій формулі, а потім для кореляції я взяв квадратний корінь помножених дисперсій (замість визначення стандартного відхилення). З використанням rho проти іншого символу я не відчуваю себе занадто сильно. Якби я викладав і мав підручник, я, ймовірно, просто хотів би відповідати тексту. Сподіваємось, ще один грецький символ не викликає хаосу!
Енді Ш

1
Якби я міг схвалити вашу відповідь 100 разів, я би сказав. Яке жахливо зрозуміле пояснення!
Джуліан А.

10

Кореляція (r) - коваріація (cov) ваших змінних (x & y), поділена на (або відрегульована іншими словами) кожне їх стандартне відхилення ( ).Var[x]Var[y]

Тобто, кореляція - це просто представлення коваріації, тому результат повинен лежати між -1 (ідеально оберненою кореляцією) +1 (ідеально позитивно корельованою), зазначаючи, що значення, близьке до нуля, означає, що дві змінні є некорельованими.

Коваріація не обмежена і не має контексту при порівнянні з іншими коваріаціями. Нормалізуючи / пристосувавши / стандартизуючи коваріації у кореляцію, набори даних можна порівняти простіше.

Як ви можете уявити, існують різні способи статистики (наприклад, коваріації) можна нормалізувати / стандартизувати. Математична формула співвідношення між кореляцією та коваріацією просто відображає використання статистиками конвенції (а саме, коригування відповідно до їх стандартних відхилень):

r=cov(x,y)Var[x]Var[y]

5

Якщо ви знайомі з ідеєю центрування та стандартизації, x-xbar - це центр x на середньому рівні. Те саме стосується у. Тож коваріація просто центрирує дані. Кореляція, однак, не тільки центрирує дані, але й масштабує, використовуючи стандартне відхилення (стандартизація). Множення та підсумовування є точковим добутком двох векторів, і це говорить про те, як паралельно ці два вектори порівнюються один з одним (проекція одного вектора на інший). Поділ (n-1) або прийняття очікуваного значення полягає у шкалі для кількості спостережень. Думки?



-3

Кореляція масштабується між -1 і +1 залежно від того, є позитивна чи негативна кореляція, і вона є безрозмірною. Однак коваріація коливається від нуля, у випадку двох незалежних змінних, до Var (X), у випадку, коли два набори даних рівні. Одиниці COV (X, Y) - це одиниці X-кратних одиниць Y.


6
Коваріація може бути негативною, тому вона не обмежена в 0. Мені також незрозуміло, що ви маєте на увазі під своїм останнім реченням, The units of COV(X,Y) are the units of X times the units of Y.хочете розробити?
Andy W

@AndyW Чи не частини одиниць зрозумілі з визначення? . Оператор очікування - це лише середньозважена середня величина X / Y, і одиниці проходять через. Cov(X,Y)=E[(XE[X])(YE[Y])]
naught101

1
@ naught101, одиниці проходять через? Мій початковий коментар до Нагараджа полягав у наданні подальшої ясності, оскільки неоднозначні твердження, такі, як це, яке я б запевнив, я нікому не корисні. Отже, чому ми не можемо інтерпретувати коваріацію як "одиниці x, помножені на одиниці у", тому що це не те, що вона є. Потенційно більш правильним твердженням (для коваріації вибірки) було б " середнє значення середніх відхилень ". продовження ...
Енді Ш

1
Тепер середні відхилення, безумовно, не такі, як вихідні одиниці, і результуюча статистика для коваріації не просто залежить від середнього значення та дисперсії вихідних атрибутів. Коваріація сама по собі нічого не говорить вам, не знаючи відмінність оригінальних атрибутів.
Енді Ш
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.