Як я можу дізнатися, коли вибрати між Spearman's та Pearson's ? Моя змінна включає задоволення, і бали були інтерпретовані за допомогою суми балів. Однак ці результати можна було також оцінити.
Як я можу дізнатися, коли вибрати між Spearman's та Pearson's ? Моя змінна включає задоволення, і бали були інтерпретовані за допомогою суми балів. Однак ці результати можна було також оцінити.
Відповіді:
Якщо ви хочете вивчити свої дані, найкраще обчислити обидва, оскільки співвідношення між співвідношеннями Спірмена (S) та Пірсона (P) дасть деяку інформацію. Якщо коротко, S обчислюється по рангах і так зображує монотонні відносини, а P - на справжніх значеннях і зображує лінійні відношення.
Як приклад, якщо встановити:
x=(1:100);
y=exp(x); % then,
corr(x,y,'type','Spearman'); % will equal 1, and
corr(x,y,'type','Pearson'); % will be about equal to 0.25
Це тому, що зростає монотонно з тому кореляція Спірмена ідеальна, але не лінійно, тому кореляція Пірсона є недосконалою.
corr(x,log(y),'type','Pearson'); % will equal 1
Робити і те й інше цікаво, тому що якщо у вас є S> P, це означає, що ви маєте монотонне, але не лінійне співвідношення. Оскільки добре мати лінійність у статистиці (це простіше), ви можете спробувати застосувати перетворення на (такий журнал).
Я сподіваюся, що це допоможе полегшити розуміння відмінностей між типами кореляцій.
Найкоротша і в основному правильна відповідь:
Лінійне співвідношення Пірсона, лінійні відносини, показники Спірмена - монотонні відносини (на кілька нескінченностей більш загальний випадок, але для деяких вигідних потужностей).
Отже, якщо ви припускаєте / думаєте, що відношення лінійне (або, як особливий випадок, що це два міри однієї речі, тож співвідношення ) і ситуація не надто виснажена (перегляньте інші відповіді для детальної інформації), ідіть з Пірсоном. В іншому випадку використовуйте Spearman.
Це часто трапляється в статистиці: існує безліч методів, які можна застосувати у вашій ситуації, і ви не знаєте, який вибрати. Ви повинні базувати своє рішення на плюсах і мінусах розглянутих методів та специфіці вашої проблеми, але навіть тоді рішення зазвичай є суб'єктивним, без узгодженої "правильної" відповіді. Зазвичай корисно спробувати якомога більше методів, які здаються вам розумними, і ваше терпіння дозволить і побачити, які з них дають найкращі результати в підсумку.
Різниця між співвідношенням Пірсона і співвідношенням Спірмена полягає в тому, що Пірсон є найбільш підходящим для вимірювань, взятих з інтервальної шкали, тоді як Спірман більше підходить для вимірювань, взятих за порядковими шкалами. Приклади інтервальних шкал включають "температуру у Фаренгейті" та "довжину в дюймах", в якій окремі одиниці (1 град F, 1 дюйм) мають значення. Такі речі, як "показники задоволення", мають тенденцію до порядкового типу, оскільки, хоча зрозуміло, що "5 щастя" щасливіше, ніж "3 щастя", не ясно, чи можна було б дати змістовне тлумачення "1 одиниця щастя". Але коли ви складаєте багато вимірювань порядкового типу, що є у вашому випадку, ви закінчуєте вимірювання, яке насправді не є порядковим і не інтервальним, і його важко інтерпретувати.
Я рекомендую вам перетворити ваші показники задоволеності на кількісні показники, а потім попрацювати з сумами цих результатів, оскільки це дасть вам дані, які трохи піддаються інтерпретації. Але навіть у цьому випадку незрозуміло, чи Пірсон чи Спірман були б більш доречними.
Я сьогодні наткнувся на цікавий кутовий випадок.
Якщо ми дивимося на дуже малу кількість зразків, різниця між Спірманом та Пірсоном може бути драматичною.
У нижченаведеному випадку два способи повідомляють про протилежну кореляцію.
Деякі швидкі правила вирішити питання щодо Spearman vs. Pearson:
ps Ось код R для відтворення наведеного вище графіка:
# Script that shows that in some corner cases, the reported correlation for spearman can be
# exactly opposite to that for pearson. In this case, spearman is +0.4 and pearson is -0.4.
y = c(+2.5,-0.5, -0.8, -1)
x = c(+0.2,-3, -2.5,+0.6)
plot(y ~ x,xlim=c(-6,+6),ylim=c(-1,+2.5))
title("Correlation: corner case for Spearman vs. Pearson\nNote that they are exactly opposite each other (-0.4 vs. +0.4)")
abline(v=0)
abline(h=0)
lm1=lm(y ~ x)
abline(lm1,col="red")
spearman = cor(y,x,method="spearman")
pearson = cor(y,x,method="pearson")
legend("topleft",
c("Red line: regression.",
sprintf("Spearman: %.5f",spearman),
sprintf("Pearson: +%.5f",pearson)
))
Погоджуючись з відповіддю на шарлів, я б запропонував (на суворо практичному рівні) ви обчислите обидва коефіцієнта і подивіться на відмінності. У багатьох випадках вони будуть абсолютно однаковими, тому хвилюватися не потрібно.
Якщо ж вони різні, то вам слід подивитися на те, чи відповідали ви припущенням Пірсона (постійна дисперсія та лінійність), і якщо вони не виконані, вам, ймовірно, краще скористатись Spearsans.