Зв'язок між коефіцієнтами кореляції фі, Меттьюса та Пірсона


13

Чи однакові поняття коефіцієнтів кореляції фі та Меттьюса? Як вони пов'язані або еквівалентні коефіцієнту кореляції Пірсона для двох бінарних змінних? Я припускаю, що двійкові значення дорівнюють 0 і 1.


Кореляція Пірсона між двома випадковими змінними Бернуллі і є:xy

ρ=E[(xE[x])(yE[y])]Var[x]Var[y]=E[xy]E[x]E[y]Var[x]Var[y]=n11nn1n1n0n1n0n1

де

E[x]=n1nVar[x]=n0n1n2E[y]=n1nVar[y]=n0n1n2E[xy]=n11n

Коефіцієнт Phi з Вікіпедії:

У статистиці коефіцієнт phi (також його називають "середнім квадратним коефіцієнтом непередбачуваності" і позначається або r ϕ ) є мірою об'єднання двох бінарних змінних, введених Карлом Пірсоном. Цей показник схожий на коефіцієнт кореляції Пірсона в його інтерпретації. Насправді, коефіцієнт кореляції Пірсона, оцінений для двох бінарних змінних, поверне коефіцієнт phi ...ϕrϕ

Якщо у нас є таблиця 2 × 2 для двох випадкових величин і yxy

введіть тут опис зображення

Коефіцієнт phi, який описує асоціацію і y, дорівнює ϕ = n 11 n 00 - n 10 n 01xy

ϕ=n11n00n10n01n1n0n0n1

Коефіцієнт кореляції Метьюса з Вікіпедії:

Коефіцієнт кореляції Меттьюса (MCC) можна обчислити безпосередньо з матриці плутанини за формулою:

MCC=TP×TNFP×FN(TP+FP)(TP+FN)(TN+FP)(TN+FN)

У цьому рівнянні TP - кількість справжніх позитивних результатів, TN - кількість справжніх негативів, FP - кількість помилкових позитивних результатів і FN - кількість помилкових негативів. Якщо будь-яка з чотирьох сум у знаменнику дорівнює нулю, знаменник може бути довільно встановлений до одиниці; в результаті виходить нульовий коефіцієнт корекції Меттьюса, який може бути показаний правильним граничним значенням.

Відповіді:


14

Так, вони однакові. Коефіцієнт корекції Меттьюса - це лише конкретне застосування коефіцієнта кореляції Пірсона до таблиці плутанини.

Таблиця надзвичайних ситуацій - це лише підсумок основних даних. Ви можете перетворити його назад з підрахунків, показаних у таблиці дій, в один рядок за спостереженнями.

Розглянемо на прикладі матрицю плутанини, використану у статті Вікіпедії з 5 правдивими позитивами, 17 справжніми негативами, 2 помилковими позитивами та 3 помилковими негативами

> matrix(c(5,3,2,17), nrow=2, byrow=TRUE)
     [,1] [,2]
[1,]    5    3
[2,]    2   17
> 
> # Matthews correlation coefficient directly from the Wikipedia formula
> (5*17-3*2) / sqrt((5+3)*(5+2)*(17+3)*(17+2))
[1] 0.5415534
> 
> 
> # Convert this into a long form binary variable and find the correlation coefficient
> conf.m <- data.frame(
+ X1=rep(c(0,1,0,1), c(5,3,2,17)),
+ X2=rep(c(0,0,1,1), c(5,3,2,17)))
> conf.m # what does that look like?
   X1 X2
1   0  0
2   0  0
3   0  0
4   0  0
5   0  0
6   1  0
7   1  0
8   1  0
9   0  1
10  0  1
11  1  1
12  1  1
13  1  1
14  1  1
15  1  1
16  1  1
17  1  1
18  1  1
19  1  1
20  1  1
21  1  1
22  1  1
23  1  1
24  1  1
25  1  1
26  1  1
27  1  1
> cor(conf.m)
          X1        X2
X1 1.0000000 0.5415534
X2 0.5415534 1.0000000

Спасибі, Петре! Математично, чому фі і Метть еквівалентні Пірсону для двох бінарних випадкових величин?
Тім

Якщо взяти визначення кореляції Пірсона і маніпулювати ним, щоб воно стосувалося підрахунків, а не до сум різниць між окремими спостереженнями та засобами, ви отримуєте формулу Метьюса. Я насправді цього не робив, але це повинно бути досить просто.
Пітер Елліс

2

E[xy]n1n1n2

n11n×1×1+n10n×1×0+n01n×0×1+n00n×0×0=n11n

ρ=ϕ

n11nn1n1=n11(n01+n10+n11+n00)(n11+n10)(n11+n01)=n11n00n10n01
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.