Коротка відповідь: Дуже ненадійна. Кореляція є мірою лінійної залежності , і коли одна змінна не може бути записана як лінійна функція іншої (і все ще має заданий граничний розподіл), ви не можете мати ідеальну (позитивну чи негативну) кореляцію. Насправді можливі кореляційні значення можуть бути суворо обмежені.
Проблема полягає в тому, що хоча співвідношення чисельності населення завжди між і 1 , точний діапазон, який можна досягти, сильно залежить від граничних розподілів. Швидкий доказ та демонстрація:- 11
Досяжний діапазон кореляції
Якщо має функцію розподілу H і граничні функції розподілу F і G , існують деякі досить приємні верхня і нижня межі для H ,
H - ( x , y ) ≤ H ( x , y ) ≤ H + ( x , у ) , що
називається межами Фреше. Це
H - ( x , y )( X, Y)НЖГН
Н-( х , у) ≤ H( х , у) ≤ H+( х , у) ,
(Спробуйте довести це; це не дуже складно.)
Н-( х , у)Н+( х , у)= max ( F( х ) + G ( у) - 1 , 0 )= хв ( F(x),G(y)).
U(X,Y)=(F−(U),G−(U))(F−(−U),G−(1−U))
Cov(X,Y)=∬H(x,y)−F( х )G(y)dхdy,
НН+Н-YХ
Приклади
Ось кілька прикладів (без доказів):
Коли і нормально розподілені, ми отримуємо максимум і мінімум , коли має звичайне двовимірне нормальний розподіл , де записується у вигляді лінійної функції . Тобто ми отримуємо максимум для
Тут оцінки є (звичайно) і , незалежно від того , які кошти і дисперсій і мають.ХY(X,Y)YХ
Y= μY+ σYХ- мкХσХ.
- 11ХY
Коли і мають логічні розподіли, нижня межа ніколи не досягається, тому що це означає, що можна записати для деякого і додатного , а ніколи не може бути від'ємним. Існують (трохи некрасиві) формули для точних меж, але дозвольте лише навести окремий випадок. Коли і мають стандартні лонормальні розподіли (мається на увазі, що при експоненції вони є нормальними нормальними), досяжний діапазон становить . (Загалом, верхня межа також обмежена.)ХYYY= a - b XабYХY[ - 1 / е , 1 ] ≈ [ - 0,37 , 1 ]
Коли має стандартний нормальний розподіл, а має стандартний лонормальний розподіл, межі кореляції становлять
ХY
± 1е - 1----√≈ 0,76.
Зауважте, що всі межі визначаються для співвідношення населення . Кореляція вибірки може легко поширюватися поза межами, особливо для невеликих зразків (швидкий приклад: розмір вибірки 2).
Оцінка меж кореляції
Насправді досить просто оцінити верхню та нижню межі кореляції, якщо ви можете імітувати за граничними розподілами. Для останнього прикладу, наведеного вище, ми можемо використовувати цей код R:
> n = 10^5 # Sample size: 100,000 observations
> x = rnorm(n) # From the standard normal distribution
> y = rlnorm(n) # From the standard lognormal distribution
>
> # Estimated maximum correlation
> cor( sort(x), sort(y) )
0.772
>
> # Estimated minimum correlation
> cor( sort(x), sort(y, decreasing=TRUE) )
−0.769
Якщо ми маємо лише фактичні дані та не знаємо граничних розподілів, ми все одно можемо скористатися вищевказаним методом. Не проблема в тому, що змінні залежать до тих пір, поки залежать пари спостережень . Але це допомагає мати багато пар спостереження.
Перетворення даних
YХ
Що ви тут справді робите, це створити нову міру залежності, яка не залежить від граничних розподілів; тобто, ви створюєте копули -А міру залежності. Уже існує кілька таких мір, що Спірман ρ і Кендалл τ є найбільш відомими. (Якщо ви дійсно зацікавлені в поняттях залежності, непогано заглянути в копули.)
На закінчення
Кілька заключних думок та порад: Просто перегляд кореляції має одну велику проблему: Це змушує вас перестати думати. Дивлячись на розкид ділянок, з іншого боку, часто змушує вас почати думати. Тому моя головна порада буде вивчити розкидання сюжетів та спробувати чітко моделювати залежність.
Це означає, що якщо вам потрібна проста відповідна кореляційна міра, я просто використовую ρ Spearman (і пов'язаний з ним довірчий інтервал і тести). Діапазон його не обмежений. Але будьте в курсі немонотонної залежності. У статті Вікіпедії про кореляцію є кілька приємних сюжетів, що ілюструють потенційні проблеми.