Як я вивчаю "кореляцію" між неперервною змінною та категоріальною змінною?


19

Який змістовний "кореляційний" захід для вивчення співвідношення між цими двома типами змінних?

В R, як це зробити?


1
перед тим, як запитати "як ти вчишся", ти повинен мати відповідь на "як ти визначаєш" :-) BTW, якщо ти запроектуєш категоричну змінну на цілі числа, ти вже можеш зробити кореляцію.
Цікаво

2
@Tomas, якщо ви це зробите, орієнтовна сила відносин залежить від того, як ви вирішили позначити точки, що страшно :)
Макрос

@Macro, ти маєш рацію - ще один вагомий аргумент для того, щоб добре визначитись!
Цікаво

@Macro Якщо я не зрозумів вашу думку, ні. Кореляція нечутлива до лінійних перетворень. Тож cor (X, Y) = cor (a + bX, Y) для кінцевих a і b. Повторне позначення 0/1 як 1/11 не приводить до кореляцій за допомогою цього var або його лінійного перетворення.
Олексій

@Curious дивіться мій коментар до Макросу вище. І зверніть увагу: (1) X <- sample(c(0,1),replace=TRUE,size=100)(2) Y <- X + rnorm(100,0.5)(3) corr(Y,X)(4) X <- 1 + 10*X(5) corr(X,Y): однакові результати для обох кореляцій!
Олексій

Відповіді:


19

На мить давайте ігноруємо суцільну / дискретну проблему. В основному кореляція вимірює міцність лінійної залежності між змінними, і ви, здається, просите альтернативний спосіб вимірювання сили зв’язку. Можливо, вам буде цікаво переглянути деякі ідеї з теорії інформації . Конкретно, я думаю, ви можете переглянути взаємну інформацію . Взаємна інформація, по суті, дає вам змогу кількісно оцінити, наскільки знання стану однієї змінної говорить вам про іншу змінну. Я насправді думаю, що це визначення ближче до того, що має на увазі більшість людей, коли вони думають про кореляцію.

Для двох дискретних змінних X і Y обчислення відбувається таким чином:

I(X;Y)=yYxXp(x,y)log(p(x,y)p(x)p(y))

Для двох безперервних змінних ми інтегруємо, а не беремо суму:

I(X;Y)=YXp(x,y)log(p(x,y)p(x)p(y))dxdу

Ваш конкретний приклад використання призначений для однієї дискретної та однієї безперервної дії. Замість того, щоб інтегруватись над сумою або підсумовувати над інтегралом, я думаю, що було б легше перетворити одну зі змінних в інший тип. Типовим способом цього стане дискретизація вашої безперервної змінної на дискретні бункери.

Існує кілька способів дискретизації даних (наприклад, рівні інтервали), і я вважаю, що пакет ентропії повинен бути корисним для обчислень MI, якщо ви хочете використовувати R.


1
Спасибі. Але наскільки високий ІМ відповідає corr = 1 і як низький ІМ відповідає corr = 0?
Луна

MI має мінімум 0, а MI = 0 тоді і лише тоді, коли змінні незалежні. MI не має постійної верхньої межі, хоча (верхня межа пов'язана з ентропіями змінних), тому ви, можливо, захочете переглянути одну з нормованих версій, якщо це важливо для вас.
Майкл МакГоуан

6

Якщо категоріальна змінна є порядковою, і ви поєднуєте безперервну змінну на кілька інтервалів частоти, ви можете використовувати Gamma. Також доступними для парних даних, що вводяться в порядкову форму, є танда Кендала, тау Стюарт та Сомерс Д. Усі вони доступні в SAS за допомогою Proc Freq. Я не знаю, як вони обчислюються, використовуючи R процедури. Ось посилання на презентацію, яка надає детальну інформацію: http://facturing.unlv.edu/cstream/ppts/QM722/measuresofassociation.ppt#260,5, Заходи Асоціації номінальних та звичайних змінних


1

Категорична змінна фактично є лише набором змінної індикатора. Основна ідея теорії вимірювань полягає в тому, що така змінна інваріантна для відновлення категорій, тому немає сенсу використовувати числове маркування категорій у будь-якому вимірі взаємозв'язку між іншою змінною (наприклад, "кореляція") . З цієї причини і міра взаємозв'язку між неперервною змінною та категоріальною змінною повинна повністю базуватися на індикаторних змінних, похідних від останньої.

Зважаючи на те, що ви хочете мірити "кореляцію" між двома змінними, має сенс подивитися на кореляцію між неперервною випадковою змінною та індикаторною випадковою змінною I, отриманою з та категоричної змінної. Нехай ϕ P ( I = 1 ) маємо:XIϕP(I=1)

Cov(I,X)=E(IX)E(I)E(X)=ϕ[E(X|I=1)E(X)],

що дає:

Corr(I,X)=ϕ1ϕE(X|I=1)E(X)S(X).

Таким чином, кореляція між неперервною випадковою змінною та індикаторною випадковою змінною I є досить простою функцією ймовірності показника ϕ та стандартизованого посилення очікуваного значення X від кондиціонування на I = 1 . Зауважимо, що ця кореляція не вимагає жодної дискретизації безперервної випадкової величини.XIϕXI=1


Для загального категоріального змінних з діапазоном 1 , . . . , м. Ви б просто розширити цю ідею, щоб мати вектор кореляційних значень для кожного результату категоріальної змінної. Для будь-якого результату C = k ми можемо визначити відповідний показник I kI ( C = k ) і маємо:C1,...,mC=kIkI(C=k)

Corr(Ik,X)=ϕk1ϕkE(X|C=k)E(X)S(X).

Corr(C,X)(Corr(I1,X),...,Corr(Im,X))

kCov(Ik,X)=0Xm1


(x1,c1),...,(хн,cн)

ϕ^к1нi=1нЯ(ci=к).

Е^(Х)х¯1нi=1нхi.

Е^(Х|С=к)х¯к1нi=1нхiЯ(ci=к)/ϕ^к.

S^(Х)сХ1н-1i=1н(хi-х¯)2.

Х


0

R пакет mpmi має можливість обчислювати взаємну інформацію для змішаного випадку змінної, а саме безперервного та дискретного. Незважаючи на те, що тут є корисними інші статистичні варіанти, такі як (точковий) коефіцієнт кореляційної кореляції, було б вигідно розраховувати взаємну інформацію, оскільки вона може виявляти асоціації, окрім лінійних та монотонних.


0

ХYХY

  1. Y
  2. Y

Слід зазначити, що точково-полісеріальна кореляція - це лише узагальнення точково-бісеріалу.

Для більш широкого огляду, ось таблиця Olsson, Drasgow & Dorans (1982) [1].

коефіцієнти кореляції

[1]: Джерело: Olsson, U., Drasgow, F., & Dorans, NJ (1982). Коефіцієнт полісеріальної кореляції. Психометріка, 47 (3), 337–347

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.