Кореляція суттєва у кожній групі, але неістотна для всіх?


9

Припустимо , ми тестуємо кореляції Пірсона між змінної і в групах і . Чи можливо, щоб кореляція була значущою в кожному з і , але несуттєвою, коли дані обох груп поєднуються? У цьому випадку ви можете, будь ласка, надати пояснення цьому.xyAB(x,y)AB

Відповіді:


21

Так, можливо, і це могло статися всілякими способами. Одним із очевидних прикладів є те, коли членство A і B вибирається певним чином, що відображає значення x і y. Можливі й інші приклади, наприклад @ коментар Macro пропонує альтернативну можливість.

Розглянемо нижченаведений приклад, написаний у R. x і y - це стандартні нормальні змінні, але якщо я розподіляю їх до груп, що базуються на відносних значеннях x та y, я отримую назву ситуації. У межах групи А та групи В існує сильна статистично значуща кореляція між х та у, але якщо ви ігноруєте структуру групування, кореляції немає.

введіть тут опис зображення

> library(ggplot2)
> x <- rnorm(1000)
> y <- rnorm(1000)
> Group <- ifelse(x>y, "A", "B")
> cor.test(x,y)

        Pearson's product-moment correlation

data:  x and y 
t = -0.9832, df = 998, p-value = 0.3257
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval:
 -0.09292  0.03094 
sample estimates:
     cor 
-0.03111 

> cor.test(x[Group=="A"], y[Group=="A"])

        Pearson's product-moment correlation

data:  x[Group == "A"] and y[Group == "A"] 
t = 11.93, df = 487, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval:
 0.4040 0.5414 
sample estimates:
   cor 
0.4756 

> cor.test(x[Group=="B"], y[Group=="B"])

        Pearson's product-moment correlation

data:  x[Group == "B"] and y[Group == "B"] 
t = 9.974, df = 509, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval:
 0.3292 0.4744 
sample estimates:
   cor 
0.4043 
> qplot(x,y, color=Group)

+1. Це дуже розумний приклад, який мені не прийшов у голову.
Макрос

13

Однією з можливостей є те, що ефекти можуть йти в різних напрямках у кожній групі і скасовуються при їх агрегуванні . Це також пов’язано з тим, як, якщо ви залишаєте важливий термін взаємодії в регресійній моделі, основні наслідки можуть вводити в оману.

Наприклад, припустимо, що в групі справжня залежність між відповіддю та предиктором :Ауiхi

Е(уi|хi,Гrоуp А)=1+хi

і в групі ,Б

Е(уi|хi,Гrоуp Б)=1-хi

Припустимо, що членство в групі розподіляється так, що Тоді, якщо ви маргіналізуєтесь над членством у групі та по Закон загального очікування, який ви отримаєте

П(Гrоуp А)=1-П(Гrоуp Б)=p
Е(уi|хi)

Е(уi|хi)=Е(Е(уi|хi,Гrоуp))=p(1+хi)+(1-p)(1-хi)=p+pхi+1-хi-p+pхi=1-хi(2p-1)

Тому, якщо , і зовсім не залежить від . Отже, існують відносини в обох групах, але, коли ви їх об'єднуєте, відносин немає. Іншими словами, для випадково вибраного індивіда в популяції, групового членства якого ми не знаємо, між та взагалі не буде стосунків . Але всередині кожної групи є.p=1/2Е(уi|хi)=1хiхiуi

Будь-який приклад, коли значення чудово врівноважує розміри ефектів у кожній групі, також призведе до цього результату - це був лише цей іграшковий приклад, щоб зробити обчислення легко :)p

Примітка: При нормальних помилках значення коефіцієнта лінійної регресії еквівалентно значущості співвідношення Пірсона, тому цей приклад виділяє одне пояснення того, що ви бачите.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.