Чому кореляція Пірсона рангів чинна, незважаючи на припущення про нормальність?


9

Зараз я читаю припущення щодо кореляцій Пірсона. Важливим припущенням для наступного t-тесту, здається, є те, що обидві змінні походять від звичайних розподілів; якщо цього не зробити, то рекомендується використання альтернативних заходів, таких як Spearman rho. Кореляція Спірмена обчислюється як кореляція Пірсона, лише використовуючи ранги X і Y замість самих X і Y, правда?

Моє запитання: Якщо вхідні змінні в кореляції Пірсона потрібно нормально розподіляти, чому обчислення кореляції Спірмена справедливе, навіть якщо вхідні змінні є ранговими? Мої ранги, безумовно, не походять із звичайних розподілів ...

Єдине пояснення, яке я придумав до цього часу, - це те, що значення rho може бути перевірено інакше, ніж тест Пірсонової кореляції (таким чином, що не вимагає нормальності), але поки що я не знайшов формули. Однак, коли я провів декілька прикладів, значення p для rho та t-тесту Пірсона співвідношення рангів завжди відповідали, за винятком останніх кількох цифр. Для мене це не виглядає як новаторська інша процедура.

Будь-які пояснення та ідеї, які, можливо, ви оцінили б!

Відповіді:


7

Нормальність не потрібна для обчислення співвідношення Пірсона; Просто деякі форми висновку про відповідну кількість населення базуються на нормальних припущеннях (тести на ІС та гіпотези).

Якщо у вас немає нормальності, маються на увазі властивості цієї конкретної форми умовиводу не дотримуються.

У випадку кореляції Спірмена у вас немає нормальності, але це нормально, тому що розрахунки висновку для кореляції Спірмена (наприклад, тест гіпотези) не ґрунтуються на припущенні про нормальність.

Вони отримані на основі того, що вони є набором парних рангів з безперервного двовимірного розподілу; у цьому випадку в тесті гіпотези використовується перестановка перестановки статистики тесту на основі рангів.

Коли звичайні припущення щодо умовиведення кореляції Пірсона (норма двовимірної норми), кореляція Спірмена зазвичай дуже близька (хоча в середньому трохи ближче до 0).

(Отже, коли ви могли використовувати Пірсона, Spearman часто справляється непогано. Якби у вас були майже двоваріантні нормальні дані, окрім забруднення якимсь іншим процесом (який спричинив чужих людей), Spearman був би більш надійним способом оцінити кореляцію в незабруднений розподіл.)


Дякую, корисна посилання на розповсюдження перестановки!
GST95

"Спірман був би більш надійним способом оцінити кореляцію" Для нітпіка Спірман оцінював би асоціацію , а не лінійну кореляцію.
ландроні

1
@landroni Якщо я говорив про Spearman в цілому, ви правильно характеризуєте те, що робить Spearman - але в цьому реченні явно кажу про порівняння двох оцінок співвідношення чисельності населення під забрудненням, і я маю на увазі те, про що я там кажу буквально. Уявіть, що це нормальний коефіцієнт з кореляцією а потім додайте дійсно екстремальний зовнішній вигляд. Якщо я хочу оцінити у цій ситуації, Spearman - більш надійний оцінювач ніж кореляція Пірсона. ρρρ
Glen_b -Встановіть Моніку

1
@landroni ... Така ситуація може статися, коли у вас основний процес, який добре ведеться, і якийсь процес забруднення, який може бути дуже екстремальним, але трапляється лише іноді. Якщо ви зацікавлені в оцінці співвідношення незабрудненого процесу, кореляція Пірсона дуже сприйнятлива до забруднення, набагато більшою мірою, ніж Spearman.
Glen_b -Встановити Моніку

2

коли я провів кілька прикладів, значення p для rho та t-тесту Пірсона співвідношення рангів завжди відповідали, за винятком останніх кількох цифр

Добре, що ви наводили неправильні приклади тоді!

a = c(1,2,3,4,5,6,7,8,9)
b = c(1,2,3,4,5,6,7,8,90)
cor.test(a,b,method='pearson')

    Pearson's product-moment correlation

data:  a and b
t = 2.0528, df = 7, p-value = 0.0792
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.08621009  0.90762506
sample estimates:
      cor 
0.6130088 

cor.test(a,b,method='spearman')

    Spearman's rank correlation rho

data:  a and b
S = 0, p-value = 5.511e-06
alternative hypothesis: true rho is not equal to 0
sample estimates:
rho 
  1 

Вектори aі bмають хороший, але далеко від ідеального лінійного (Pearson) кореляції. Однак вони мають ідеальну кореляційну залежність. Бачите - до Спірменаρ, в цьому випадку має значення не те, чи остання цифра b8,1, 9, 90 або 9000 (спробуйте!), це має значення лише якщо вона більша за 8 . Ось у чому різниця співвідносних рангів.

І навпаки, хоча aі bмають досконалу кореляцію рангів, їх коефіцієнт кореляції Пірсона менший за 1. Це показує, що Пірсонова кореляція не відображає ранги.
Кореляція Пірсона відображає лінійну функцію, рангова кореляція - просто монотонна функція. Що стосується звичайних даних, вони сильно нагадують одне одного, і я підозрюю, що саме тому ваші дані не показують великих відмінностей між Спірманом та Пірсоном.

Для практичного прикладу врахуйте наступне; ви хочете побачити, чи старші люди важать більше. Так, це дурне питання ... але просто припустимо, що це те, що вас хвилює. Тепер маса не лінійно масштабується з вагою, оскільки високі люди також ширші, ніж маленькі люди; тому вага не є лінійною функцією висоти. Хтось, хто на 10% більший за вас, (в середньому) на 10% важчий. Ось чому індекс тіла / маси використовує куб у знаменнику.
Отже, ви б припустили лінійну кореляцію, щоб неточно відобразити співвідношення висота / вага. На відміну від цього, рангова кореляція не чутлива до дратівливих законів фізики та біології в цьому випадку; це не відображає, якщо люди ростуть важче лінійно, коли вони набирають зріст, це просто відображає, якщо люди з високим рівнем (вищі за рангом на одну шкалу) важчі (вище за рангом на іншій шкалі).

Більш типовим прикладом може бути опис опитувальників, подібних до Лікерта, таких як люди оцінюють щось як "ідеальне / добре / гідне / посереднє / погано / жахливо". "досконалий" настільки далеко не "пристойний", як "пристойний" - від "поганий" за шкалою , але чи можна насправді сказати, що відстань між ними однакова? Лінійна кореляція не обов'язково підходить. Кореляція рангів більш природна.

Для більш прямого вирішення вашого питання: ні, значення p для співвідношень Пірсона та Спірмена не повинні обчислюватися по-різному . Багато іншого про двох, концептуально, так і чисельно, але якщо тестова статистика рівносильно, р значення буде еквівалентно.

Щодо питання про припущення про нормальність у співвідношенні Пірсона, дивіться це .
Загалом, інші люди розробили набагато краще, ніж я міг, стосовно теми параметричних та непараметричних кореляцій (також дивіться тут ), і що це означає щодо припущень щодо розподілу.


Дякую! Наступного разу я обов’язково більше експериментую з прикладами. :)
GST95

1
Ні, чекай, насправді це не було моїм питанням. Я не порівнював метод = "pearson" з методом = "spearman" версією x і y. Я порівнював cor.test(x, y, method = "spearman")с cor.test(rank(x), rank(y), method = "pearson"). Ці оцінки будуть ідентичними незалежно від того, які дані вибиратимуть. Дякую все-таки! :)
GST95

@ GST95, кореляція Спірмена - саме кореляція Пірсона, яка виконується на даних, трансформованих за рангом. Ваші два "методи" - це дійсно точно той самий метод.
Денніс

@ Денніс, я точно не порівнював (однакові) коефіцієнти rho, але значення p, щоб побачити, чи були вони отримані за допомогою t-тесту.
GST95
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.