Кореляція Пірсона або Спірмена з ненормальними даними


113

Це питання я досить часто зустрічаю в своїй консультаційній роботі зі статистики, і думав, що опублікую його тут. У мене є відповідь, яка розміщена нижче, але мені було цікаво почути, що мають сказати інші.

Питання: Якщо у вас є дві змінні, які зазвичай не розподіляються, чи слід використовувати rho Spearman для кореляції?


1
Чому б не обчислити та повідомити про обоє (Pearson's r та Spearman's ρ)? Їх відмінність (або їх відсутність) надасть додаткову інформацію.

Питання про порівняння припущень розподілу, зроблених, коли ми перевіряємо на значущість бета-коефіцієнта простої регресії та коли ми перевіряємо коефіцієнт кореляції Пірсона (чисельно прирівняний до бета-версії) stats.stackexchange.com/q/181043/3277 .
ttnphns

Відповіді:


77

Кореляція Пірсона - це міра лінійної залежності між двома безперервними випадковими змінними. Він не передбачає нормальності, хоча припускає кінцеві дисперсії та кінцеву коваріацію. Коли змінні є біваріантними нормальними, кореляція Пірсона забезпечує повний опис асоціації.

Кореляція Спірмена стосується рангів і тому забезпечує міру монотонної залежності між двома безперервними випадковими змінними. Він також корисний з порядковими даними та є надійним для людей, які не мають статусу інших (на відміну від співвідношення Пірсона).

Розподіл будь-якого коефіцієнта кореляції залежатиме від основного розподілу, хоча обидва є асимптотично нормальними через центральну граничну теорему.


12
Пірсона не припускав нормальність, а є лише міра вичерпної асоціацій , якщо спільний розподіл є багатовимірним нормальним. Враховуючи плутанину, яку викликає ця відмінність, ви можете додати її до своєї відповіді. ρ
user603

3
Чи є джерело, яке можна цитувати для підтвердження вищезгаданого твердження (особа r не передбачає нормальності)? У нас зараз такий самий аргумент у нашому відділі.

5
"Коли змінні є біваріантними нормальними, кореляція Пірсона забезпечує повний опис асоціації." І коли змінні НЕ є двовимірними нормальними, наскільки корисна кореляція Пірсона?
landroni

2
Ця відповідь здається досить опосередкованою. "Коли змінні є двовимірними нормальними ..." А коли ні? Таке пояснення, чому я ніколи не отримую статистику. "Роб, як тобі подобається моя нова сукня?" "Темний колір підкреслює вашу світлу шкіру". "Звичайно, Роб, але вам подобається, як це підкреслює мою шкіру?" "Світла шкіра вважається прекрасною у багатьох культурах". "Я знаю, Роб, але тобі це подобається?" "Я думаю, плаття красиве". "Я теж так думаю, Роб, але чи красиво на мені ?" "Ти завжди красиво виглядаєш на мені, дорогий". зітхнути

1
Якщо ви прочитаєте два речення до цього, ви знайдете відповідь.
Роб Хайндман

49

Не забувайте тау Кендалл ! Роджер Newson стверджував про перевагу Кендалла т а над Спірмена кореляції г S в якості рангу на основі показника кореляції в роботі якого повний текст тепер вільно доступні в Інтернеті:

Ньюсон Р. Параметри, що стоять за «непараметричною» статистикою: тау Кендалла, сомерська D і медіанні відмінності . Stata Journal 2002; 2 (1): 45–64.

Він згадує (на p47) Kendall & Gibbons (1990) як аргументацію того, що "... довірчі інтервали для r S Spearman менш надійні та менш інтерпретовані, ніж інтервали довіри для Кендаллових τ-параметрів , але вибірка r S Spearman набагато легше розраховано без комп’ютера "(що вже не має великого значення). На жаль, у мене немає простого доступу до копії їхньої книги:

Kendall, MG та JD Gibbons. 1990. Методи кореляції рейтингу . 5-е видання. Лондон: Гріффін.


2
Я також великий фанат тау Кендалл. На мій смак Пірсон занадто чутливий до впливових точок / переживань, і хоча Спірман не страждає від цієї проблеми, мені особисто Кендалл легше зрозуміти, інтерпретувати та пояснити, ніж Спірмена. Звичайно, ваш пробіг може відрізнятися.
Стефан Коласа

Моє згадування з досвіду полягає в тому, що тау Кендалл все ще працює набагато повільніше (в R), ніж у Spearman. Це може бути важливо, якщо ваш набір даних великий.
словазвідти

35

З прикладної точки зору, я більше переймаюся вибором підходу, який узагальнює взаємозв'язок між двома змінними таким чином, що відповідає моєму дослідницькому питанню. Я думаю, що визначення методу отримання точних стандартних помилок та p-значень - це питання, яке має стати другим. Навіть якщо ви вирішили не покладатися на асимптотику, завжди є можливість завантажувати або змінювати припущення щодо розповсюдження.

Як правило, я віддаю перевагу співвідношенню Пірсона, оскільки (а) воно, як правило, більше відповідає моїм теоретичним інтересам; (b) це дає можливість більш прямої порівняльності результатів у різних дослідженнях, оскільки більшість досліджень у моїй області повідомляють про співвідношення Пірсона; та (c) у багатьох налаштуваннях мінімальна різниця між коефіцієнтами кореляції Пірсона та Спірмена.

Однак бувають ситуації, коли я вважаю, що співвідношення Пірсона щодо сировинних змінних вводить в оману.

  • Надзвичайні люди : Надзвичайні люди можуть мати великий вплив на кореляції Пірсона. Багато хто з інших людей у ​​застосованих налаштуваннях відображає збої вимірювань або інші фактори, на які модель не планується узагальнювати. Один із варіантів - видалити такі люди, що втратили спокій. Унікальних однодумців з rho Спірмена не існує, оскільки все перетворюється на ранги. Таким чином, Спірман є більш надійним.
  • Сильно змінені змінні: при співвідношенні перекошених змінних, особливо сильно перекошених змінних, журнал або якась інша трансформація часто роблять більш чіткими базові відносини між двома змінними (наприклад, розмір мозку за масою тіла тварин). У таких налаштуваннях можливо, що необроблений показник не є найбільш значущим показником. Rho Spearman має подібний ефект до трансформації шляхом перетворення обох змінних у ранги. З цієї точки зору, Rho Spearman можна розглядати як швидкий і брудний підхід (або, що більш позитивно, менш суб'єктивний), при якому вам не потрібно думати про оптимальні перетворення.

В обох вищезазначених випадках я б радив дослідникам або розглянути стратегії коригування (наприклад, трансформації, вилучення / коригування зовнішнього вигляду) перед застосуванням кореляції Пірсона або використовувати rho Spearman.


Проблема трансформації полягає в тому, що вона, як правило, також перетворює помилки, пов'язані з кожною точкою, і, отже, вагою. І це не вирішує проблему сторонніх людей.
скан

11

Оновлено

Питання пропонує нам вибрати метод Пірсона та Спірмена, коли питання про нормальність . Обмежуючись цим питанням, я думаю, що наступний документ повинен повідомляти рішення когось:

r

r

Якщо його попросять обрати один із Спірмена та Пірсона, коли нормальність порушена, альтернатива вільної дистрибуції варто рекомендувати, тобто метод Спірмена.


Раніше ..

Кореляція Спірмена - це міра кореляції на основі рангів; це не параметрично і не спирається на припущення про нормальність.

Розподіл вибірки для кореляції Пірсона дійсно передбачає нормальність; зокрема це означає, що, хоча ви можете це обчислити, висновки, засновані на тестуванні значимості, можуть не бути надійними.

Як зазначає Роб у коментарях, з великою вибіркою це не проблема. Що стосується невеликих зразків, де нормальність порушена, слід віддати перевагу співвідношенню Спірмена.

Оновлення Роздумуючи над коментарями та відповідями, мені здається, що це зводиться до звичайної дискусії про непараметричні та параметричні тести. Значна частина літератури, наприклад, з біостатистики, не стосується великих зразків. Я взагалі не кавалер, покладаючись на асимптотику. Можливо, це виправдано в цьому випадку, але це мені не видно.


1
Ні. Кореляція Пірсона НЕ передбачає нормальності. Це оцінка кореляції між будь-якими двома безперервними випадковими величинами і є послідовною оцінкою за відносно загальних умов. Навіть тести, засновані на кореляції Пірсона, не вимагають нормальності, якщо зразки досить великі через ХЛТ.
Роб Хайндман

2
Я маю враження, що Пірсон визначається до тих пір, поки основні розподіли мають кінцеві дисперсії та коваріації. Отже, нормальність не потрібна. Якщо основні розподіли не є нормальними, то тестова статистика може мати інший розподіл, але це є вторинним питанням і не має відношення до даного питання. Це не так?

2
@Rob: Так, ми завжди можемо придумувати шляхи вирішення, щоб зробити роботу приблизно однаковою. Просто уникати методу Спірмена - з яким більшість нестатистичних лікарів можуть впоратися зі стандартною командою. Я думаю, що моя порада залишається використовувати метод Спірмена для невеликих зразків, коли нормальність сумнівна. Не впевнений, суперечить це тут чи ні.
АРС

1
@ars. Я використовував би Спірмена, якби мене цікавила монотонна, а не лінійна асоціація, або якщо були б чужі або високі рівні косості. Я використовував би Пірсона для лінійних відносин, за умови, що немає інших людей. Я не думаю, що розмір вибірки є релевантним для вибору.
Роб Хайндман

3
@Rob: Добре, дякую за обговорення. Я погоджуюся з першою частиною, але сумніваюся в останній, і включав би, що розмір відіграє лише певну роль, оскільки нормальна асимптотика не застосовується. Наприклад, Ковальський 1972 р. Має досить хороший огляд історії навколо цього, і робить висновок, що кореляція Пірсона не така міцна, як думка. Дивіться: jstor.org/pss/2346598
ars
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.