Коефіцієнт Пірсона між двома змінними досить високий (r = .65). Але коли я ранжую змінні значення та запускаю співвідношення Спірмена, коефіцієнт коефіцієнта значно нижчий (r = .30).
- Що таке тлумачення?
Коефіцієнт Пірсона між двома змінними досить високий (r = .65). Але коли я ранжую змінні значення та запускаю співвідношення Спірмена, коефіцієнт коефіцієнта значно нижчий (r = .30).
Відповіді:
Якщо ваші дані звичайно розподіляються або розподіляються рівномірно, я думаю, що співвідношення Спірмена та Пірсона має бути досить схожим.
Якщо вони дають дуже різні результати, як у вашому випадку (.65 проти .30), я здогадуюсь, що ви перекосили дані або пережили, і що люди, що переживають, призводять до того, що співвідношення Пірсона є більшим, ніж співвідношення Спірмена. Тобто, дуже високі значення на X можуть співпадати з дуже високими значеннями на Y.
Також дивіться ці попередні питання щодо відмінностей між співвідношенням Спірмена та Пірсона:
Далі наведено просте моделювання того, як це може статися. Зауважте, що нижченаведений випадок включає в себе одне чуже, але ви можете створити подібні ефекти з декількома випадаючими або перекошеними даними.
# Set Seed of random number generator
set.seed(4444)
# Generate random data
# First, create some normally distributed correlated data
x1 <- rnorm(200)
y1 <- rnorm(200) + .6 * x1
# Second, add a major outlier
x2 <- c(x1, 14)
y2 <- c(y1, 14)
# Plot both data sets
par(mfrow=c(2,2))
plot(x1, y1, main="Raw no outlier")
plot(x2, y2, main="Raw with outlier")
plot(rank(x1), rank(y1), main="Rank no outlier")
plot(rank(x2), rank(y2), main="Rank with outlier")
# Calculate correlations on both datasets
round(cor(x1, y1, method="pearson"), 2)
round(cor(x1, y1, method="spearman"), 2)
round(cor(x2, y2, method="pearson"), 2)
round(cor(x2, y2, method="spearman"), 2)
Що дає цей вихід
[1] 0.44
[1] 0.44
[1] 0.7
[1] 0.44
Кореляційний аналіз показує, що без зовнішніх Спірмена та Пірсона досить схожі, а при досить екстремальній зовнішності кореляція зовсім інша.
Наведений нижче графік показує, як трактування даних як рангів знімає надзвичайний вплив зовнішньої групи, тим самим приводячи Спірмена до схожості як з аутлієром, так і без нього, тоді як Пірсон сильно відрізняється, коли додається чужа. Це підкреслює, чому Спірмена часто називають надійним.