Наскільки надійний коефіцієнт кореляції Пірсона до порушень нормальності?


20

Дані для певних видів змінних, як правило, є ненормальними, якщо вимірюватись у певних популяціях (наприклад, рівень депресії у популяції людей з великим депресивним розладом). Враховуючи, що Пірсон припускає нормальність, наскільки надійною є статистика тесту в умовах ненормативності?

У мене є ряд змінних, для яких я хотів би коефіцієнтів кореляції, але зміщення Z для деяких із цих змінних є значущим при p <.001 (і це для порівняно невеликої вибірки). Я спробував деякі перетворення, але поліпшення в дистрибуції в кращому випадку є лише незначними.

Чи мені доведеться дотримуватися непараметричних аналізів? І не тільки для кореляцій, а й для інших видів аналізу?


Зачекайте, коефіцієнт кореляції Пірсона передбачає нормальність? Я не думаю, що це робить, і я використовував це на не нормальних даних. Це просто не є надійним для деяких речей, які частіше трапляються в деяких ненормальних ситуаціях, але є маса ненормальних ситуацій, коли я не бачу проблем із використанням коефіцієнта кореляції Пірсона.
Дуглас Заре

1
Про те, що кореляція Пірсона передбачає нормальність, є те, про що стверджують багато текстів. Я чула в іншому місці, що нормальність - це марне припущення для R Пірсона. Коли я запускаю аналізи, і Пірсон, і Спірман дають відносно однакові результати.
Археоптерикс

Коефіцієнт кореляції рейтингів Спірмена - коефіцієнт кореляції Пірсона, застосований до ненормальних рейтингів. Я досі не знаю, в якому сенсі ти вважаєш, що Пірсон вимагає нормальності. Можливо, ви можете сказати кілька додаткових речей, якщо ви використовуєте їх у багатоваріантному нормальному розподілі.
Дуглас Заре

Я просто використовую це для простих двовимірних кореляцій. Я не впевнений, чому стверджується, що потрібна нормальність. Тексти статистики, які я читав, завжди перераховують нормальність як припущення про співвідношення Пірсона і радять використовувати Спірмена для умов, у яких існує ненормальність.
Археоптерикс

Відповіді:


20

Коротка відповідь: Дуже ненадійна. Кореляція є мірою лінійної залежності , і коли одна змінна не може бути записана як лінійна функція іншої (і все ще має заданий граничний розподіл), ви не можете мати ідеальну (позитивну чи негативну) кореляцію. Насправді можливі кореляційні значення можуть бути суворо обмежені.

Проблема полягає в тому, що хоча співвідношення чисельності населення завжди між і 1 , точний діапазон, який можна досягти, сильно залежить від граничних розподілів. Швидкий доказ та демонстрація:-11

Досяжний діапазон кореляції

Якщо має функцію розподілу H і граничні функції розподілу F і G , існують деякі досить приємні верхня і нижня межі для H , H - ( x , y ) H ( x , y ) H + ( x , у ) , що називається межами Фреше. Це H - ( x , y )(Х,Y)НЖГН

Н-(х,у)Н(х,у)Н+(х,у),
(Спробуйте довести це; це не дуже складно.)
H(x,y)=max(F(x)+G(y)1,0)H+(x,y)=min(F(x),G(y)).

U(X,Y)=(F(U),G(U))(F(U),G(1U))

Cov(Х,Y)=Н(х,у)-Ж(х)Г(у)гхгу,
НН+Н-YХ

Приклади

Ось кілька прикладів (без доказів):

  1. Коли і нормально розподілені, ми отримуємо максимум і мінімум , коли має звичайне двовимірне нормальний розподіл , де записується у вигляді лінійної функції . Тобто ми отримуємо максимум для Тут оцінки є (звичайно) і , незалежно від того , які кошти і дисперсій і мають.ХY(Х,Y)YХ

    Y=мкY+σYХ-мкХσХ.
    -11ХY
  2. Коли і мають логічні розподіли, нижня межа ніколи не досягається, тому що це означає, що можна записати для деякого і додатного , а ніколи не може бути від'ємним. Існують (трохи некрасиві) формули для точних меж, але дозвольте лише навести окремий випадок. Коли і мають стандартні лонормальні розподіли (мається на увазі, що при експоненції вони є нормальними нормальними), досяжний діапазон становить . (Загалом, верхня межа також обмежена.)ХYYY=а-бХабYХY[-1/е,1][-0,37,1]

  3. Коли має стандартний нормальний розподіл, а має стандартний лонормальний розподіл, межі кореляції становлять ХY

    ±1е-10,76.

Зауважте, що всі межі визначаються для співвідношення населення . Кореляція вибірки може легко поширюватися поза межами, особливо для невеликих зразків (швидкий приклад: розмір вибірки 2).

Оцінка меж кореляції

Насправді досить просто оцінити верхню та нижню межі кореляції, якщо ви можете імітувати за граничними розподілами. Для останнього прикладу, наведеного вище, ми можемо використовувати цей код R:

> n = 10^5      # Sample size: 100,000 observations
> x = rnorm(n)  # From the standard normal distribution
> y = rlnorm(n) # From the standard lognormal distribution
>
> # Estimated maximum correlation
> cor( sort(x), sort(y) )
0.772
>
> # Estimated minimum correlation
> cor( sort(x), sort(y, decreasing=TRUE) )
−0.769

Якщо ми маємо лише фактичні дані та не знаємо граничних розподілів, ми все одно можемо скористатися вищевказаним методом. Не проблема в тому, що змінні залежать до тих пір, поки залежать пари спостережень . Але це допомагає мати багато пар спостереження.

Перетворення даних

YХ

Що ви тут справді робите, це створити нову міру залежності, яка не залежить від граничних розподілів; тобто, ви створюєте копули -А міру залежності. Уже існує кілька таких мір, що Спірман  ρ і Кендалл  τ є найбільш відомими. (Якщо ви дійсно зацікавлені в поняттях залежності, непогано заглянути в копули.)

На закінчення

Кілька заключних думок та порад: Просто перегляд кореляції має одну велику проблему: Це змушує вас перестати думати. Дивлячись на розкид ділянок, з іншого боку, часто змушує вас почати думати. Тому моя головна порада буде вивчити розкидання сюжетів та спробувати чітко моделювати залежність.

Це означає, що якщо вам потрібна проста відповідна кореляційна міра, я просто використовую ρ Spearman  (і пов'язаний з ним довірчий інтервал і тести). Діапазон його не обмежений. Але будьте в курсі немонотонної залежності. У статті Вікіпедії про кореляцію є кілька приємних сюжетів, що ілюструють потенційні проблеми.


1
+1 Цей дуже приємний внесок чітко стосується кількох повторюваних питань, пов'язаних з кореляціями. Я особливо вдячний зауваженням у першому заключному пункті про зупинку / початок мислення.
whuber

Чи залишиться ненадійність навіть асимптотично? Якщо так, чи вікі невірно сказати, що "[розподіл Стьюдента для простого перетворення r] також має місце приблизно, навіть якщо спостережувані значення не є нормальними, якщо розміри вибірки не дуже малі"?
макс

5

Як виглядають розподіли цих змінних (окрім перекосів)? Якщо єдиною ненормальністю є косоокість, то якась трансформація повинна допомогти. Але якщо ці змінні мають багато грудок, то жодна трансформація не приведе їх до нормальності. Якщо змінна не є суцільною, то ж саме.

Наскільки міцною є кореляція з порушеннями? Погляньте на квартет Anscombe. Це досить добре ілюструє декілька проблем.

Що стосується інших видів аналізу, то він залежить від аналізу. Якщо скажені змінні є незалежними змінними в регресії, наприклад, може взагалі не виникнути проблеми - потрібно подивитися на залишки.


1
Деякі зі змінних також мають проблеми з куртозом, але найбільшою проблемою є перекос. Я спробував перетворення квадратних коренів і журналів на проблемних змінних, але вони значно покращуються. Насправді, схоже, розподіли виглядають майже однаково, але з більшим нагромадженням балів.
Археоптерикс

1
Це здається дуже дивним. Чи можете ви розмістити середнє значення, медіану, косий куртоз відповідної змінної? Або (ще краще) графік щільності його?
Пітер Флом - Відновити Моніку

6
Незалежно від того, розподіл (X, Y) є біваріантним нормальним чи ні, кореляція Пірсона є мірою ступеня лінійності. Розподіл вірогідності для вибіркової оцінки залежатиме від нормальності.
Майкл Р. Черник

3
Ці змінні не дуже спотворені. Ви можете залишити їх такими, як є.
Пітер Флом - Відновіть Моніку

3
Тут не турбуйтеся про значення. Зазвичай перекос і куртоз, що становить <-2 або> 2, вважаються, можливо, потребують трансформації. Ще краще подивитися графіки, наприклад, квантильний звичайний графік і графік щільності з ядром, щоб побачити, що відбувається.
Пітер Флом - Відновити Моніку
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.