Кореляція суттєва у кожній групі, але неістотна для всіх?

9

Припустимо , ми тестуємо кореляції Пірсона між змінної і в групах і . Чи можливо, щоб кореляція була значущою в кожному з і , але несуттєвою, коли дані обох груп поєднуються? У цьому випадку ви можете, будь ласка, надати пояснення цьому. $x$ $y$ $A$ $B$ $(x,y)$ $A$ $B$

correlation

— qed
джерело

21

Так, можливо, і це могло статися всілякими способами. Одним із очевидних прикладів є те, коли членство A і B вибирається певним чином, що відображає значення x і y. Можливі й інші приклади, наприклад @ коментар Macro пропонує альтернативну можливість.

Розглянемо нижченаведений приклад, написаний у R. x і y - це стандартні нормальні змінні, але якщо я розподіляю їх до груп, що базуються на відносних значеннях x та y, я отримую назву ситуації. У межах групи А та групи В існує сильна статистично значуща кореляція між х та у, але якщо ви ігноруєте структуру групування, кореляції немає.

введіть тут опис зображення

> library(ggplot2)
> x <- rnorm(1000)
> y <- rnorm(1000)
> Group <- ifelse(x>y, "A", "B")
> cor.test(x,y)

        Pearson's product-moment correlation

data:  x and y 
t = -0.9832, df = 998, p-value = 0.3257
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval:
 -0.09292  0.03094 
sample estimates:
     cor 
-0.03111 

> cor.test(x[Group=="A"], y[Group=="A"])

        Pearson's product-moment correlation

data:  x[Group == "A"] and y[Group == "A"] 
t = 11.93, df = 487, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval:
 0.4040 0.5414 
sample estimates:
   cor 
0.4756 

> cor.test(x[Group=="B"], y[Group=="B"])

        Pearson's product-moment correlation

data:  x[Group == "B"] and y[Group == "B"] 
t = 9.974, df = 509, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval:
 0.3292 0.4744 
sample estimates:
   cor 
0.4043 
> qplot(x,y, color=Group)

— Пітер Елліс
джерело

+1. Це дуже розумний приклад, який мені не прийшов у голову.

— Макрос

13

Однією з можливостей є те, що ефекти можуть йти в різних напрямках у кожній групі і скасовуються при їх агрегуванні . Це також пов’язано з тим, як, якщо ви залишаєте важливий термін взаємодії в регресійній моделі, основні наслідки можуть вводити в оману.

Наприклад, припустимо, що в групі справжня залежність між відповіддю та предиктором : $\rm A$ $y_i$ $x_i$

Е (у_{i} | х_{i}, Г r о у p А) = 1 + х_{i}

$E(y_i|x_i, {\rm Group \ A}) = 1 + x_i$

і в групі , $\rm B$

Е (у_{i} | х_{i}, Г r о у p Б) = 1 - х_{i}

$E(y_i|x_i, {\rm Group \ B}) = 1 - x_i$

Припустимо, що членство в групі розподіляється так, що Тоді, якщо ви маргіналізуєтесь над членством у групі та по Закон загального очікування, який ви отримаєте

П (Г r о у p А) = 1 - П (Г r о у p Б) = p

$P({\rm Group \ A}) = 1-P( {\rm Group \ B}) = p$

E (y_{i} | x_{i})

$E(y_i|x_i)$

\begin{aligned} Е (у_{i} | х_{i}) = Е (Е (у_{i} | х_{i}, Г r о у p)) & = p (1 + х_{i}) + (1 - p) (1 - х_{i}) \\ = p + p х_{i} + 1 - х_{i} - p + p х_{i} \\ = 1 - х_{i} (2 p - 1) \end{aligned}

$\begin{align*} E(y_i | x_i) = E( E(y_i|x_i,{\rm Group}) ) &= p(1+ x_i) + (1-p)(1-x_i) \\ &= p + px_i + 1 - x_i - p + px_i \\ &= 1 - x_i(2p-1) \end{align*}$

Тому, якщо , і зовсім не залежить від . Отже, існують відносини в обох групах, але, коли ви їх об'єднуєте, відносин немає. Іншими словами, для випадково вибраного індивіда в популяції, групового членства якого ми не знаємо, між та взагалі не буде стосунків . Але всередині кожної групи є. $p = 1/2$ $E(y_i | x_i) = 1$ $x_i$ $x_i$ $y_i$

Будь-який приклад, коли значення чудово врівноважує розміри ефектів у кожній групі, також призведе до цього результату - це був лише цей іграшковий приклад, щоб зробити обчислення легко :) $p$

Примітка: При нормальних помилках значення коефіцієнта лінійної регресії еквівалентно значущості співвідношення Пірсона, тому цей приклад виділяє одне пояснення того, що ви бачите.

— Макрос
джерело