Що стосується зв'язаних даних у контексті коефіцієнта кореляції рангів?

16

Я не в полі статистики.

Я бачив слово "прив'язані дані", читаючи про коефіцієнти кореляції рейтингу.

Що таке пов'язані дані?
Що таке приклад зв’язаних даних?

correlation nonparametric ranks

— BB01
джерело

5

Це означає, що дані мають однакове значення; наприклад, якщо у вас є 1,2,3,3,4 як набір даних, то обидва 3 є зв'язаними даними. Якщо у вас є 1,2,3,4,5,5,5,6,7,7 як набір даних, то дані 5 і 7 зв'язані.

— quarkdown27
джерело

14

"Зв'язані дані" з'являються в контексті рангових непараметричних статистичних тестів.

Непараметричні тести : тестування, яке не передбачає особливого розподілу ймовірностей, наприклад, воно не передбачає дзвіноподібної кривої.

на основі рангу : великий клас непараметричних тестів починається з перетворення чисел (наприклад, "3 дні", "5 днів" і "4 дні") в ранги (наприклад, "найкоротша тривалість (3-та)", "найдовша тривалість (1-а) "," друга найдовша тривалість (2-а) "). Потім до цих рангів застосовується традиційний параметричний метод тестування.

Зв'язані дані - це проблема, оскільки номери, ідентичні тепер, потрібно перетворити на ранги. Іноді ранги присвоюються випадковим чином, іноді використовується середнє звання. Найголовніше, що для відтворюваності результату потрібно описати протокол розриву зв'язаних рангів.

— Мін К
джерело

5

Це просто два однакових значення даних, наприклад спостереження за 7 разів в одному наборі даних.

Це з'являється в контексті статистичних методів, які передбачають, що дані мають постійні, і тому однакові вимірювання неможливі (або технічно ідентичні значення ймовірності дорівнюють нулю). Практичні ускладнення виникають, коли ці методи застосовуються до даних, які округлені або обрізані так, що однакові вимірювання не тільки можливі, але досить поширені.

— Джон Д. Кук
джерело

1

Я не згоден з цим міркуванням, оскільки ви не можете сказати, що через його нульову ймовірність, що ця подія ніколи не може відбутися. Це не гарні міркування.

— Генрі.L

2

Питання має принципове значення:

Що таке зв'язане спостереження / дані / пара?

Хоча це часто згадується лише в непараметричних методах, це поняття не залежить від непараметричних методів. Він згадується в непараметричних методах, оскільки така ситуація спричинить ускладнення при розрахунку в отриманні статистики, яка використовується в непараметричних методах, як, наприклад, статистика підписанням Wilcoxon . $T^+$

(Тож я не думаю, що відповідь @ Ming-Chih Kao є правильною, вводячи спочатку непараметричні тести. Але оскільки заголовок - "Що пов'язано з даними в контексті коефіцієнта кореляції рейтингу?", Я його куплю.)

$Z_{i}=X_{i}-Y_{i}$

$(X_{i},Y_{i})$

$Z_{i}$

$|Z_{i}|$

$\{(1,-1) (1,-1)\},\{ (1,2) (1,2) (2,1) (2,1) (2,3) (2,3) (3,2) \},\{(3,0)\}$

Спробуємо дуже простий спосіб зробити це, ми класифікуємо зліва направо і даємо:

$R_{i}$

$|Z_{i}|$

$R_{i}$

$|Z_{i}|$

$R_{i}$

$|Z_{i}|=1$ $|Z_{i}|=2$

$\frac{1+\cdots+7}{7}=4$ $\frac{8+9}{2}=8.5$ . Тому у нас є:

$R_{i}$ : 8,5 4 4 8,5 4 4 4 4 4 10

Це змінило рейтинги та зробило, що кожне зв'язане спостереження має однаковий вплив на обчислення статистики ранжування, таким чином, на тестування рангів.

Які рішення пов'язаного спостереження / даних / пари?

(1) Призначте середнє звання. Це саме те, що ми робили вище. Присвоюючи одне і те ж ранг прив'язаним даним в одній групі, ми робимо їх вплив у тесті ранжування так само, і тому усуваємо можливу неточність, викликану прив’язаними спостереженнями.

(2) Призначте випадковий ранг. Просто призначте ранги випадковим чином кожному з прив'язаних групових елементів. Єдине обмеження - це $MaxRank_{first group}<MinRank_{second group}$ since if $MaxRank_{first group}>MinRank_{second group}$ , that breaks the ranking law; if $MaxRank_{first group}=MinRank_{second group}$ , then we have to merge two tied groups into one.

(3)Perturbation of data. This requires very careful consideration about the nature of the data. This works only if the data is not categorical(discrete). In the above example, we can just make a This will put different weights manually to each of the elements in the tied group. For a continuous distribution, for example, it makes little difference if you perturb it in $\epsilon$ manner.

(@John D. Cook 's answer is a bit misleading in this way. A better way of saying this point is that when the distribution is continuous, $P{X=x}=0$ . However, we shall observe ties since our measurement is of limited accuracy, i.e. any sample space in reality is actually finite.) (@quarkdown27 's answer is simple but correct in each word.)

— Henry.L
джерело