Категорична змінна фактично є лише набором змінної індикатора. Основна ідея теорії вимірювань полягає в тому, що така змінна інваріантна для відновлення категорій, тому немає сенсу використовувати числове маркування категорій у будь-якому вимірі взаємозв'язку між іншою змінною (наприклад, "кореляція") . З цієї причини і міра взаємозв'язку між неперервною змінною та категоріальною змінною повинна повністю базуватися на індикаторних змінних, похідних від останньої.
Зважаючи на те, що ви хочете мірити "кореляцію" між двома змінними, має сенс подивитися на кореляцію між неперервною випадковою змінною та індикаторною випадковою змінною I, отриманою з та категоричної змінної. Нехай ϕ ≡ P ( I = 1 ) маємо:XIϕ≡P(I=1)
Cov(I,X)=E(IX)−E(I)E(X)=ϕ[E(X|I=1)−E(X)],
що дає:
Corr(I,X)=ϕ1−ϕ−−−−−√⋅E(X|I=1)−E(X)S(X).
Таким чином, кореляція між неперервною випадковою змінною та індикаторною випадковою змінною I є досить простою функцією ймовірності показника ϕ та стандартизованого посилення очікуваного значення X від кондиціонування на I = 1 . Зауважимо, що ця кореляція не вимагає жодної дискретизації безперервної випадкової величини.XIϕXI=1
Для загального категоріального змінних з діапазоном 1 , . . . , м. Ви б просто розширити цю ідею, щоб мати вектор кореляційних значень для кожного результату категоріальної змінної. Для будь-якого результату C = k ми можемо визначити відповідний показник I k ≡ I ( C = k ) і маємо:C1,...,mC=kIk≡I(C=k)
Corr(Ik,X)=ϕk1−ϕk−−−−−−√⋅E(X|C=k)−E(X)S(X).
Corr(C,X)≡(Corr(I1,X),...,Corr(Im,X))
∑kCov(Ik,X)=0Xm−1
(x1,c1) , . . . , (xн,cн)
ϕ^к≡ 1н∑i = 1нI ( ci= k ) .
Е^( X) ≡ x¯≡ 1н∑i = 1нхi.
Е^( X| С= k ) ≡ x¯к≡ 1н∑i = 1нхiI ( ci= k ) / ϕ^к.
S^( X) ≡ сХ≡ 1n - 1∑i = 1н( хi- х¯)2---------------√.
Х