Чому кореляція не дуже корисна, коли одна зі змінних є категоричною?


14

Це трохи перевірка кишок, будь ласка, допоможіть мені зрозуміти, чи я нерозумію цю концепцію, і яким чином.

У мене є функціональне розуміння кореляції, але я відчуваю трохи розуміння, щоб справді впевнено пояснити принципи цього функціонального розуміння.

Як я розумію, статистична кореляція (на відміну від більш загального використання терміна) - це спосіб зрозуміти дві безперервні змінні та спосіб, яким вони чи не мають тенденції до зростання або падіння аналогічними способами.

Причина, за якою ви не можете запустити кореляції, скажімо, однієї безперервної та однієї категоріальної змінної, полягає в тому, що неможливо обчислити коваріацію між двома, оскільки категоріальна змінна за визначенням не може дати середнього значення і, отже, не може навіть увійти в першу етапи статистичного аналізу.

Це так?


2
Ось набрані слайди лекцій із класу, який я викладаю, здебільшого, що стосується співвідношення між населенням (не вибірки), кореляцією та коваріацією людей.virginia.edu/~trb5me/3120_slides/5/5.2/5.2.pdf
Тейлор

3
Проста причина, уявіть, що ви запитуєте людей "який ваш улюблений колір?" і вони відповідають "червоний", "зелений", "синій", "помаранчевий", "жовтий", ..., що кодується у вашому наборі даних як 1, 2, 3, ... Далі, ви обчислюєте коефіцієнт кореляції між така змінна із задоволенням від роботи та отримає значення 0,21. Що це означає? Чи можете ви надати якісь змістовні тлумачення?
Тім

2
Тісно споріднені (можливо, навіть дублікат?) - Кореляція між номінальною (IV) та суцільною змінною (DV)
Срібна рибка

@Taylor: Що ми використовуємо, коли обидві змінні безперервні / чисельні, але одна з них є стохастичною, а інша - не, наприклад, годин, вивчених проти GPA?
MSIS

Відповіді:


16

Кореляція - це стандартизована коваріація, тобто коваріація x і y поділена на стандартне відхилення x і y . Дозвольте мені проілюструвати це.

Якщо говорити не просто, статистику можна узагальнити як пристосування моделей до даних та оцінку того, наскільки добре модель описує ці точки даних ( результат = модель + помилка ). Один із способів зробити це - обчислити суми відхилень або залишків (res) від моделі:

res=(xix¯)

На цьому базується багато статистичних розрахунків, в т.ч. коефіцієнт кореляції (див. нижче).

Ось приклад набору даних R(залишки вказані у вигляді червоних ліній, а їх значення додаються поруч):

X <- c(8,9,10,13,15)  
Y <- c(5,4,4,6,8)

введіть тут опис зображення

Переглядаючи кожну точку даних окремо і віднімаючи її значення від моделі (наприклад, середнє значення; в цьому випадку X=11і Y=5.4), можна було б оцінити точність моделі. Можна сказати, що модель завищувала / занижувала фактичне значення. Однак, підсумовуючи всі відхилення від моделі, загальна помилка, як правило, дорівнює нулю , значення відміняють одне одного, оскільки є позитивні значення (модель недооцінює конкретну точку даних) та негативні значення (модель завищує певні дані бал). Для вирішення цієї задачі суми відхилень мають квадрат і тепер називаються сумами квадратів ( SS ):

SS=(xix¯)(xix¯)=(xix¯)2

n1s2

s2=SSn1=(xix¯)(xix¯)n1=(xix¯)2n1

Для зручності можна взяти квадратний корінь дисперсії вибірки, який відомий як стандартне відхилення вибірки:

s=s2=SSn1=(xix¯)2n1

Тепер коваріація оцінює, чи пов'язані дві змінні одна з одною. Позитивне значення вказує на те, що одна змінна відхиляється від середньої, інша змінна відхиляється в тому ж напрямку.

covx,y=(xix¯)(yiy¯)n1

r

r=covx,ysxsy=(x1x¯)(yiy¯)(n1)sxsy

r=0.87 , що можна вважати сильним співвідношенням (хоча це також відносно залежно від галузі дослідження). Щоб перевірити це, тут ще одна ділянка з Xна осі x та Yна осі y:

введіть тут опис зображення

Таким чином, довга історія, так, ваше почуття правильне, але я сподіваюся, що моя відповідь може дати деякий контекст.


1
Це дуже корисно - намагаючись поглибити своє власне розуміння, я вважаю, що не можу достатньо пояснити це комусь без досвіду статистики, я не розумію це так добре, як я думав.
квітня

8

Ви (майже) праві. Коваріацію (а отже, і кореляцію) можна обчислити лише між числовими змінними. Це включає безперервні змінні, але також дискретні числові змінні.

Категоричні змінні можуть використовуватися для обчислення кореляції лише з урахуванням корисного для них числового коду, але це, швидше за все, не отримає практичної переваги - можливо, воно може бути корисним для деяких категорійних змінних двох рівнів, але інші інструменти, ймовірно, будуть більш підходящими.


Щоб додати точку Пере, коефіцієнт кореляції моменту Пірсона представляє ступінь лінійної залежності між двома змінними. Непараметричні заходи, такі як rho Spearman або tau Кендалла, характеризують, наскільки існує тенденція до збільшення X або Y разом або зменшення (поводяться в такій мірі, як монотонне відношення, яке не обов'язково має бути лінійним.
Майкл Р. Черник

@Pere: Що ми використовуємо, коли у нас є дві безперервні змінні, але лише одна з них є стохастичною, наприклад, "Години" проти "Ваги".
MSIS

1
@MSIS - це має бути іншим питанням, але кореляція може використовуватися, навіть якщо одна змінна не є випадковою.
Пер

1
Я запитав, в разі , якщо ви зацікавлені :: @Pere stats.stackexchange.com/questions/435257 / ...
MSIS

3

Немає нічого поганого в обчисленні кореляцій, коли одна із змінних є категоричною. Сильне позитивне співвідношення означає, що включення (або вимкнення) вашої категоріальної змінної викликає посилення відповіді. Наприклад, це може статися при обчисленні логістичної регресії, де змінні є категоричними: передбачення ймовірності інфаркту з урахуванням супутніх захворювань пацієнта, таких як діабет та ІМТ. У цьому випадку ІМТ мав би дуже сильну кореляцію з інфарктами. Чи зробите ви висновок, що це не корисно?

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.