Кореляція - це стандартизована коваріація, тобто коваріація x і y поділена на стандартне відхилення x і y . Дозвольте мені проілюструвати це.
Якщо говорити не просто, статистику можна узагальнити як пристосування моделей до даних та оцінку того, наскільки добре модель описує ці точки даних ( результат = модель + помилка ). Один із способів зробити це - обчислити суми відхилень або залишків (res) від моделі:
res=∑(xi−x¯)
На цьому базується багато статистичних розрахунків, в т.ч. коефіцієнт кореляції (див. нижче).
Ось приклад набору даних R
(залишки вказані у вигляді червоних ліній, а їх значення додаються поруч):
X <- c(8,9,10,13,15)
Y <- c(5,4,4,6,8)
Переглядаючи кожну точку даних окремо і віднімаючи її значення від моделі (наприклад, середнє значення; в цьому випадку X=11
і Y=5.4
), можна було б оцінити точність моделі. Можна сказати, що модель завищувала / занижувала фактичне значення. Однак, підсумовуючи всі відхилення від моделі, загальна помилка, як правило, дорівнює нулю , значення відміняють одне одного, оскільки є позитивні значення (модель недооцінює конкретну точку даних) та негативні значення (модель завищує певні дані бал). Для вирішення цієї задачі суми відхилень мають квадрат і тепер називаються сумами квадратів ( SS ):
SS=∑(xi−x¯)(xi−x¯)=∑(xi−x¯)2
n−1s2
s2=SSn−1=∑(xi−x¯)(xi−x¯)n−1=∑(xi−x¯)2n−1
Для зручності можна взяти квадратний корінь дисперсії вибірки, який відомий як стандартне відхилення вибірки:
s=s2−−√=SSn−1−−−√=∑(xi−x¯)2n−1−−−−−−−√
Тепер коваріація оцінює, чи пов'язані дві змінні одна з одною. Позитивне значення вказує на те, що одна змінна відхиляється від середньої, інша змінна відхиляється в тому ж напрямку.
covx,y=∑(xi−x¯)(yi−y¯)n−1
r
r=covx,ysxsy=∑(x1−x¯)(yi−y¯)(n−1)sxsy
r=0.87 , що можна вважати сильним співвідношенням (хоча це також відносно залежно від галузі дослідження). Щоб перевірити це, тут ще одна ділянка з X
на осі x та Y
на осі y:
Таким чином, довга історія, так, ваше почуття правильне, але я сподіваюся, що моя відповідь може дати деякий контекст.