Що може спричинити великі відмінності у коефіцієнті кореляції між співвідношенням Пірсона та Спірмена для даного набору даних?


22

Коефіцієнт Пірсона між двома змінними досить високий (r = .65). Але коли я ранжую змінні значення та запускаю співвідношення Спірмена, коефіцієнт коефіцієнта значно нижчий (r = .30).

  • Що таке тлумачення?

5
Як правило, добра ідея показати розкид даних, перш ніж інтерпретувати коефіцієнт кореляції.
чл

Який розмір вибірки?
Джеромі Англім

Відповіді:


37

Чому велика різниця

  • Якщо ваші дані звичайно розподіляються або розподіляються рівномірно, я думаю, що співвідношення Спірмена та Пірсона має бути досить схожим.

  • Якщо вони дають дуже різні результати, як у вашому випадку (.65 проти .30), я здогадуюсь, що ви перекосили дані або пережили, і що люди, що переживають, призводять до того, що співвідношення Пірсона є більшим, ніж співвідношення Спірмена. Тобто, дуже високі значення на X можуть співпадати з дуже високими значеннями на Y.

  • @chl не ввімкнено. Вашим першим кроком має стати погляд на ділянку розкидання.
  • Взагалі, така велика різниця між Пірсоном та Спірменом - це червоний прапор, що це говорить
    • співвідношення Пірсона може бути не корисним підсумком зв'язку між вашими двома змінними, або
    • ви повинні трансформувати одну або обидві змінні, перш ніж використовувати кореляцію Пірсона, або
    • перед тим, як застосовувати співвідношення Пірсона, ви повинні вилучити або відрегулювати залишків.

Пов’язані запитання

Також дивіться ці попередні питання щодо відмінностей між співвідношенням Спірмена та Пірсона:

Простий R Приклад

Далі наведено просте моделювання того, як це може статися. Зауважте, що нижченаведений випадок включає в себе одне чуже, але ви можете створити подібні ефекти з декількома випадаючими або перекошеними даними.

# Set Seed of random number generator
set.seed(4444)

# Generate random data
# First, create some normally distributed correlated data
x1 <- rnorm(200)
y1 <- rnorm(200) + .6 * x1

# Second, add a major outlier
x2 <- c(x1, 14)
y2 <- c(y1, 14)

# Plot both data sets
par(mfrow=c(2,2))
plot(x1, y1, main="Raw no outlier")
plot(x2, y2, main="Raw with outlier")

plot(rank(x1), rank(y1), main="Rank no outlier")
plot(rank(x2), rank(y2), main="Rank with outlier")

# Calculate correlations on both datasets
round(cor(x1, y1, method="pearson"), 2)
round(cor(x1, y1, method="spearman"), 2)
round(cor(x2, y2, method="pearson"), 2)
round(cor(x2, y2, method="spearman"), 2)

Що дає цей вихід

[1] 0.44
[1] 0.44
[1] 0.7
[1] 0.44

Кореляційний аналіз показує, що без зовнішніх Спірмена та Пірсона досить схожі, а при досить екстремальній зовнішності кореляція зовсім інша.

Наведений нижче графік показує, як трактування даних як рангів знімає надзвичайний вплив зовнішньої групи, тим самим приводячи Спірмена до схожості як з аутлієром, так і без нього, тоді як Пірсон сильно відрізняється, коли додається чужа. Це підкреслює, чому Спірмена часто називають надійним.

введіть тут опис зображення

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.