Як вибрати між співвідношенням Пірсона та Спірмена?


119

Як я можу дізнатися, коли вибрати між Spearman's та Pearson's ? Моя змінна включає задоволення, і бали були інтерпретовані за допомогою суми балів. Однак ці результати можна було також оцінити.ρr


2
дивіться також це питання про грушу проти спирмена для ненормативних даних stats.stackexchange.com/questions/3730/…
Джеромі Англім

1
у випадку нормальних даних виробляйте грушу. у разі ненормативних даних виробляйте спермайн.

Відповіді:


137

Якщо ви хочете вивчити свої дані, найкраще обчислити обидва, оскільки співвідношення між співвідношеннями Спірмена (S) та Пірсона (P) дасть деяку інформацію. Якщо коротко, S обчислюється по рангах і так зображує монотонні відносини, а P - на справжніх значеннях і зображує лінійні відношення.

Як приклад, якщо встановити:

x=(1:100);  
y=exp(x);                         % then,
corr(x,y,'type','Spearman');      % will equal 1, and 
corr(x,y,'type','Pearson');       % will be about equal to 0.25

Це тому, що зростає монотонно з тому кореляція Спірмена ідеальна, але не лінійно, тому кореляція Пірсона є недосконалою. yx

corr(x,log(y),'type','Pearson');  % will equal 1

Робити і те й інше цікаво, тому що якщо у вас є S> P, це означає, що ви маєте монотонне, але не лінійне співвідношення. Оскільки добре мати лінійність у статистиці (це простіше), ви можете спробувати застосувати перетворення на (такий журнал).y

Я сподіваюся, що це допоможе полегшити розуміння відмінностей між типами кореляцій.


2
Я здогадуюсь, що це дане з того, що ви вже сказали, але я просто хочу підтвердити, що S <P не може відбутися.
Джонатан Тіле

9
@JonathanThiele цілком можливо мати S <P. Наприклад, множини II та IV з «Квартетів Анскомба» демонструють цю поведінку. Також дивіться це питання: stats.stackexchange.com/questions/27127/…
atomicules

1
@atomicules Дякую за інформацію. Я щойно перевірив співвідношення в квартеті Anscombe, і ваше посилання було корисним.
Джонатан Тіле

Як можна включити співвідношення Пірсона та Спірсона в одну презентацію корграм? - - Я тут думаю про випадок stackoverflow.com/a/40523080/54964 - - у мене є багатофакторна проблема, тому я думаю, що Серпсон міг би включитись, і я не можу йти лише з Пірсоном.
Лео Леопольд Герц 준영

Такий підхід я зазвичай використовую, оскільки він має додаткову перевагу від кропіткого кропіткого обґрунтування одного тесту проти іншого, особливо при тестуванні кореляції між багатьма змінними. Замість того, щоб вивчати кожну змінну, щоб побачити, чи виконуються припущення про співвідношення Пірсона чи Спірмена, просто запустіть обидва з усіх. У багатьох практичних програмах вони даватимуть подібні міри значущості асоціації, тому вам потрібно лише глибше копатись щодо порівняно небагато випадків, коли їх результати сильно відрізняються, і це цікаві випадки, щоб дізнатися більше про все-таки.
Ядерна Ванга

50

Найкоротша і в основному правильна відповідь:

Лінійне співвідношення Пірсона, лінійні відносини, показники Спірмена - монотонні відносини (на кілька нескінченностей більш загальний випадок, але для деяких вигідних потужностей).

Отже, якщо ви припускаєте / думаєте, що відношення лінійне (або, як особливий випадок, що це два міри однієї речі, тож співвідношення ) і ситуація не надто виснажена (перегляньте інші відповіді для детальної інформації), ідіть з Пірсоном. В іншому випадку використовуйте Spearman.y=1x+0


35

Це часто трапляється в статистиці: існує безліч методів, які можна застосувати у вашій ситуації, і ви не знаєте, який вибрати. Ви повинні базувати своє рішення на плюсах і мінусах розглянутих методів та специфіці вашої проблеми, але навіть тоді рішення зазвичай є суб'єктивним, без узгодженої "правильної" відповіді. Зазвичай корисно спробувати якомога більше методів, які здаються вам розумними, і ваше терпіння дозволить і побачити, які з них дають найкращі результати в підсумку.

Різниця між співвідношенням Пірсона і співвідношенням Спірмена полягає в тому, що Пірсон є найбільш підходящим для вимірювань, взятих з інтервальної шкали, тоді як Спірман більше підходить для вимірювань, взятих за порядковими шкалами. Приклади інтервальних шкал включають "температуру у Фаренгейті" та "довжину в дюймах", в якій окремі одиниці (1 град F, 1 дюйм) мають значення. Такі речі, як "показники задоволення", мають тенденцію до порядкового типу, оскільки, хоча зрозуміло, що "5 щастя" щасливіше, ніж "3 щастя", не ясно, чи можна було б дати змістовне тлумачення "1 одиниця щастя". Але коли ви складаєте багато вимірювань порядкового типу, що є у вашому випадку, ви закінчуєте вимірювання, яке насправді не є порядковим і не інтервальним, і його важко інтерпретувати.

Я рекомендую вам перетворити ваші показники задоволеності на кількісні показники, а потім попрацювати з сумами цих результатів, оскільки це дасть вам дані, які трохи піддаються інтерпретації. Але навіть у цьому випадку незрозуміло, чи Пірсон чи Спірман були б більш доречними.


2
Як щодо наприклад ... побоювання спілкування? Високе побоювання не має певної різниці з дуже високим побоюванням, правда? Але я бачив, що змінна корелювалась з іншими змінними за допомогою r Пірсона. Це зовсім гаразд? Дякую!

28

Я сьогодні наткнувся на цікавий кутовий випадок.

Якщо ми дивимося на дуже малу кількість зразків, різниця між Спірманом та Пірсоном може бути драматичною.

У нижченаведеному випадку два способи повідомляють про протилежну кореляцію.

введіть тут опис зображення

Деякі швидкі правила вирішити питання щодо Spearman vs. Pearson:

  • Припущення Пірсона - це постійні розбіжності та лінійність (або щось розумно близьке до цього), і якщо вони не будуть виконані, можливо, варто спробувати Spearsans.
  • Наведений вище приклад - це кутовий випадок, який вискакує лише за наявності декількох точок даних (<5). Якщо є> 100 точок даних, а дані лінійні або близькі до неї, то Пірсон буде дуже схожий на Spearman.
  • Якщо ви вважаєте, що лінійна регресія є підходящим методом для аналізу ваших даних, то вихід Pearsons буде відповідати знаку та величині нахилу лінійної регресії (якщо змінні стандартизовані).
  • Якщо у ваших даних є деякі нелінійні компоненти, які лінійна регресія не підбере, то спершу спробуйте випрямити дані в лінійну форму, застосувавши перетворення (можливо, журнал e). Якщо це не допоможе, то Спірмен може бути доречним.
  • Я завжди намагаюся першим Пірсона, і якщо це не виходить, то я намагаюся Спірмена.
  • Чи можете ви додати ще якісь великі правила чи виправити ті, що я щойно вивів? Я зробив це питання спільнотою Wiki, щоб ви могли це зробити.

ps Ось код R для відтворення наведеного вище графіка:

# Script that shows that in some corner cases, the reported correlation for spearman can be
# exactly opposite to that for pearson. In this case, spearman is +0.4 and pearson is -0.4.
y = c(+2.5,-0.5, -0.8, -1)
x = c(+0.2,-3,   -2.5,+0.6)

plot(y ~ x,xlim=c(-6,+6),ylim=c(-1,+2.5))
title("Correlation: corner case for Spearman vs. Pearson\nNote that they are exactly opposite each other (-0.4 vs. +0.4)")
abline(v=0)
abline(h=0)
lm1=lm(y ~ x)
abline(lm1,col="red")

spearman = cor(y,x,method="spearman")
pearson = cor(y,x,method="pearson")
legend("topleft",
    c("Red line: regression.",
    sprintf("Spearman: %.5f",spearman),
    sprintf("Pearson:   +%.5f",pearson)
))

7

Погоджуючись з відповіддю на шарлів, я б запропонував (на суворо практичному рівні) ви обчислите обидва коефіцієнта і подивіться на відмінності. У багатьох випадках вони будуть абсолютно однаковими, тому хвилюватися не потрібно.

Якщо ж вони різні, то вам слід подивитися на те, чи відповідали ви припущенням Пірсона (постійна дисперсія та лінійність), і якщо вони не виконані, вам, ймовірно, краще скористатись Spearsans.


3
як машинознавець, я, звичайно, не святий щодо статистичної коректності, але перевірка припущень ПІСЛЯ виконання тесту здається мені єресью.
steffen

7
@steffen Я думаю, що це добре. Одне з припущень регресії полягає в тому, що залишки нормально розподіляються. Як би ви це перевірили перед запуском регресії?
Глен

1
@Glen: У цьому випадку я не можу. Але коли я порівнюю якість різних моделей, я, як правило, вважаю за краще перевірити припущення (наприклад, приблизно нормально розподілене), перш ніж проводити тест, щоб зменшити тенденцію до розслаблення припущень на користь певних результатів тесту. Назвіть це запобіганням хитрості розуму. Я здогадуюсь це тільки я;).
steffen

1
@ steffen: ви є правдивими щодо єресі, але якщо дві процедури дають однакові результати, то це питання смаку, який слід використовувати, але якщо вони не перевіряють припущення, і де вони не вдається, часто можна дати корисну інформацію про дані. Особисто я використовую сперман, де це можливо, але це не є звичайною практикою в моїй галузі.
richiemorrisroe
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.