Поріг для коефіцієнта кореляції для вказівки статистичної значущості кореляції у кореляційній матриці


10

Я обчислив кореляційну матрицю набору даних, що містить 455 точок даних, кожна точка даних містить 14 характеристик. Отже розмірність кореляційної матриці дорівнює 14 х 14.

Мені було цікаво, чи існує поріг значення коефіцієнта кореляції, який вказує на наявність значної кореляції між двома цими характеристиками.

Я маю значення від -0,2 до 0,85, і я думав, що важливими є ті, які вище 0,7.

  • Чи є загальне значення коефіцієнта кореляції, яке слід враховувати для порогу, або просто контекстне значення залежить від типу даних, які я досліджую?

1
ви перевірили stats.stackexchange.com/questions/5750/… ?
user603

@ user603 Хороший улов: це практично той самий питання. Інновація тут полягає в тому, щоб запитати, чи можуть тести на значну кореляцію залежати від "типу даних" (читайте: розподіл даних). Будемо сподіватися, що відповіді зосереджуватимуться на цьому аспекті, а не на старій основі.
whuber

Відповіді:


8

Тести на значущість для кореляцій

Існують тести статистичної значущості, які можуть бути застосовані до окремих кореляцій, які вказують на ймовірність отримання кореляції такою великою чи більшою, ніж вибіркова кореляція, припускаючи, що нульова гіпотеза є істинною.

Ключовим моментом є те, що від статистично значущого коефіцієнта кореляції залежить:

  • Розмір вибірки : більший розмір вибірки призведе до менших порогів
  • альфа : часто встановлюється значення 0,05, менші альфа призводять до підвищення порогових значень статистичної значущості
  • тест з однохвостим / двохвостим : я здогадуюсь, що ви використовували б двохвостих, тому це, мабуть, не має значення
  • тип коефіцієнта кореляції : я здогадуюсь, ви використовуєте Пірсон
  • розподільні припущення x і y

У загальних обставинах, коли альфа становить 0,05, використовуючи двосхилий тест, з кореляцією Пірсона, і коли нормальність є принаймні адекватним наближенням, головним фактором, що впливає на скорочення, є розмір вибірки.

Поріг важливості

Інший спосіб тлумачення вашого питання полягає в тому, щоб ви вважали, що вас цікавить не те, чи є кореляція статистично значущою, а чи є вона практично важливою.

Деякі дослідники запропонували великі правила для тлумачення значення коефіцієнтів кореляції, але ці великі правила залежать від домену.

Тестування на множинні значення

к(к-1)/2к14(13)/2=9191.05=4,55

Як зазначав @ user603, ці питання були добре обговорені в цьому попередньому запитанні .

Взагалі, мені здається корисним при інтерпретації кореляційної матриці орієнтуватися на структуру вищого рівня. Це можна зробити неофіційним шляхом, переглянувши загальні зразки у кореляційній матриці. Це можна зробити більш формально, використовуючи такі методи, як PCA та факторний аналіз. Такі підходи уникають багатьох питань, пов'язаних із тестуванням багатозначності.


1

Одним із варіантів буде моделювання або перестановка на перестановку. Якщо ви знаєте розподіл, який надходять ваші дані, ви могли б імітувати його, але всі спостереження незалежні. Якщо ви не знаєте розподілу, то ви можете переставляти кожну зі своїх змінних незалежно один від одного, і це дасть вам однаковий загальний граничний розподіл кожної змінної, але з будь-якою кореляцією видалено.

Виконайте будь-що з вищезазначеного (зберігаючи розміри вибірки та розміри матриці однакові) цілу купу разів (10 000 або більше) і подивіться на максимальну абсолютну кореляцію чи інший високий кількісний коефіцієнт, який може представляти інтерес. Це дасть вам розподіл з нульової гіпотези про те, що ви можете порівняти максимум фактичних спостережуваних кореляцій з (та іншими високими квантовими числами, що цікавлять).


0

Ви можете показати, що стандартна помилка в Пірсоновій кореляції двох стохастично незалежних векторів, відібраних у звичайному розподілі, є н-2, де н- довжина вектора. Отже, статистично достовірне співвідношення двох векторів мало бcоrr>>н-2

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.