Як зрозуміти формулу коефіцієнта кореляції?


15

Чи може хто-небудь допомогти мені зрозуміти формулу кореляції Пірсона? зразок r = середнє з продуктів стандартних оцінок змінних X і Y .

Я начебто розумію, чому їм потрібно стандартизувати X і Y , але як зрозуміти продукти обох результатів z?

Ця формула також називається "коефіцієнт кореляції продукту-моменту", але яка обгрунтування дії продукту? Я не впевнений, чи зрозумів я своє питання, але просто хочу запам'ятати формулу інтуїтивно.


11
Ви можете прочитати статтю "Тринадцять способів дивитися на коефіцієнт кореляції" (Rodgers & Nicewander 1988). Як випливає з назви, в ньому обговорюється тринадцять різних інтуїтивних поглядів на коефіцієнт кореляції. Тож сподіваємось, щонайменше один натисне :)
напівперехід

10
13 шляхів можна знайти тут
Мастеров Дмитро Васильович

4
14-й спосіб зрозуміти кореляцію (з точки зору продуктів z балів) зводиться до розуміння коваріації стандартизованих змінних, як це проілюстровано на сайті stats.stackexchange.com/questions/18058/… .
whuber

4
... І 15-й спосіб використовує кола, показані на stats.stackexchange.com/a/46508/919 : розміщення з мінімальними квадратами мінімізує загальну площу кіл (є щонайменше два способи зробити це, коли точки роблять не точно вирівняти), а коефіцієнт кореляції - це їх середня площа (коли обидві змінні стандартизовані).
whuber

Відповіді:


14

У коментарях запропоновано 15 способів зрозуміти коефіцієнт кореляції:


13 способів, про які йдеться у статті про Роджерса та Ніцвандера (американський статистик, лютий 1988 р.)

  1. Функція сировинних балів та засобів,

    r=(Хi-Х¯)(Yi-Y¯)(Хi-Х¯)2(Yi-Y¯)2.
  2. Стандартизована коваріація,

    r=sXY/(sXsY)

    де - коваріація вибірки, а s X і s Y - стандартні відхилення вибірки.sXYsXsY

  3. Стандартизований нахил лінії регресії,

    r=bYXsXsY=bXYsYsX,

    де і b X Y - нахили ліній регресії.bYXbXY

  4. Геометричне значення двох регресійних схилів,

    r=±bYXbXY.
  5. Квадратний корінь співвідношення двох варіацій (доля змінної враховується),

    r=(YiYi^)2(YiY¯)2=SSREGSSTOT=sY^sY.
  6. Середній перехресний продукт стандартизованих змінних,

    r=zXzY/N.
  7. Функція кута між двома стандартизованими регресійними лініями. Дві регресійні лінії ( проти X і X проти Y ) симетричні щодо діагоналі. Нехай кут між двома прямими буде β . ПотімYXXYβ

    r=sec(β)±tan(β).
  8. Функція кута між двома змінними векторами,

    r=cos(α).
  9. Налаштована різниця різниці між стандартизованими балами. Нехай - різниця між стандартизованими змінними X і Y для кожного спостереження,zYzXXY

    r=1s(zYzX)2/2=s(zY+zX)2/21.
  10. Оцінено за правилом "Повітряна куля",

    r1(h/H)2

    де - вертикальний діапазон усього розсіювання X - Y, а h - діапазон через "центр розподілу по осі X " (тобто через точку значень).HXYhX

  11. Що стосується двовимірних еліпсів ізоконцентрації,

    r=D2d2D2+d2

    де і d - основна і незначна довжини осі відповідно. r також дорівнює нахилу дотичної лінії ізоконтара (у стандартизованих координатах) у точці контуру перетинає вертикальну вісь.Ddr

  12. Функція статистики тестів із розроблених експериментів,

    r=tt2+n2

    де - статистика випробувань у двох незалежних зразках t тесту для розробленого експерименту з двома умовами лікування (кодується як X = 0 , 1 ) і n - загальна кількість спостережень у двох групах лікування.ttX=0,1n

  13. Співвідношення двох засобів. Припустимо біваріантну нормальність і стандартизуємо змінні. Виберіть яке завгодно велике значення в X . ПотімXcX

    r=E(Y|X>Xc)E(X|X>Xc).

(Більшість із них є дослівними, із незначними змінами в деяких нотаціях.)

Деякі інші методи (можливо, оригінальні для цього сайту) є

  • r

  • r


2
Дякую, @Avraham, що намагався довести цю невідповідну тему до певного закриття, розмістивши відповідь тут.
whuber
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.