Чому нульова кореляція не обов'язково передбачає незалежність

41

Якщо дві змінні мають 0 кореляцію, чому вони не обов'язково є незалежними? Чи незалежні кореляційні змінні незалежні за особливих обставин? Якщо можливо, я шукаю інтуїтивне пояснення, а не високо технічне.

correlation independence

— Віктор
джерело

10

Кореляція - це міра лінійної залежності (асоціації). можливо, що дві випадкові величини можуть бути неспорідненими, але нелінійно залежними.

— Марк Л. Стоун

Інтуїтивне пояснення -> math.stackexchange.com/questions/444408 / ...

— Siddhesh

6

Нульова кореляція передбачає незалежність, якщо змінні є багатоваріантними нормальними. Це не те саме, що кожна змінна є нормальною - дивіться тут деякі розкидні нульові корельовані, але залежні нормальні змінні (кожна змінна індивідуально нормальна)

— Glen_b

1

Кореляція (некваліфікована) може включати кореляційну залежність тощо, для якої монотонна залежність є проблемою тощо.

— Нік Кокс

1

З точки зору світогляду я рекомендую вам бачити у Вікіпедії «кореляцію відстані» як міру незалежності.

— ttnphns

41

Кореляція вимірює лінійну асоціацію між двома заданими змінними, і вона не зобов'язана виявляти будь-яку іншу форму асоціації.

Тож ці дві змінні можуть бути пов'язані кількома іншими нелінійними способами, і кореляція не може відрізняти від незалежного випадку.

$X$ $P(X=x)=1/3$ $x=-1, 0, 1$ $Y=X^2$

— Марсело Вентура
джерело

1

Я шукав докази того, що випадкові відхилення не співвідносяться, але залежать, проте жоден із прямих відповідей на моє запитання не виявив інтуїтивно зрозумілих фактів. Ваша відповідь, з іншого боку, дає мені дуже хороший кут, щоб подумати над цим, велике спасибі!

— ліпнина

1

@stucash моє задоволення! Це був старий зустрічний приклад, про який я дізнався

— Марсело Вентура

23

Існує узагальнена відсутність суворості у використанні слова "кореляція" з тієї простої причини, що воно може мати широкі різні припущення та значення. Найпростішим, найбіднішим і найпоширенішим використанням є те, що між статичною парою випадкових змінних є певна асоціація, взаємозв'язок або відсутність незалежності.

Тут згадується метрика за замовчуванням, як правило, кореляція Пірсона , яка є стандартизованою мірою попарної, лінійної асоціації між двома безперервно розподіленими змінними. Однією з найпоширеніших зловживань Пірсона є повідомлення про це у відсотках. Це точно не відсоток. Пірсона кореляції, г , знаходиться в діапазоні між 1,0 і +1,0 де 0 означає відсутність лінійної асоціації. Інші не настільки широко відомі проблеми використання кореляції Пірсона, як за замовчуванням, - це те, що це насправді досить суворий, ненадійний показник лінійності, що вимагає інтервальних масштабів як вхідних даних (див. Чудовий документ Пола Ендречта наКореляція та залежність в управлінні ризиками: властивості та підводні камені тут: https://people.math.ethz.ch/~embrecht/ftp/pitfalls.pdf ).

Embrechts зазначає, що існує багато помилкових припущень про залежність, які починаються з припущень базової структури та геометричної форми цих відносин:

Ці помилки виникають з наївного припущення, що властивості залежності еліптичного світу зберігаються і в нееліптичному світі

Embrechts вказує на копули як на набагато ширший клас показників залежності, використовуваних у фінансах та управлінні ризиками, серед яких кореляція Пірсона - лише один тип.

Відділ статистики Колумбії 2013-2014 навчальний рік зосередився на розробці більш глибокого розуміння структур залежності: наприклад, лінійної, нелінійної, монотонної, рангової, параметричної, непараметричної, потенційно дуже складної та має великі відмінності в масштабуванні. Рік закінчився триденним семінаром та конференцією, яка зібрала більшість найкращих учасників у цій галузі ( http://datascience.columbia.edu/workshop-and-conference-nonparametric-measures-dependence-apr-28-may- 2 ).

Ці автори включали в себе Reshef Brothers, в даний час відомий за 2011 рік Науки паперового виявлення Novel асоціацій у великих наборах даних http://www.uvm.edu/~cdanfort/csc-reading-group/reshef-correlation-science-2011.pdf що зазнав широкої критики (див. AndrewGelman.com за гарний огляд, опублікований одночасно з подією Columbia: http://andrewgelman.com/2014/03/14/maximal-information-coefficient ). Reshefs звернулися до всіх цих критичних питань у своїй презентації (доступна на веб-сайті конференції Columbia), а також набагато більш ефективним алгоритмом MIC.

На цьому заході було представлено багато інших провідних статистиків, включаючи Габора Секелі, який зараз працює в НСФ в окрузі Колумбія. Секелі розробив кореляцію своєї відстані та часткової відстані . Deep Mukhopadhay, Temple U, представляючи свій Єдиний статистичний алгоритм - основу для уніфікованих алгоритмів науки про дані - на основі роботи, виконаної з Євгеном Франценом http://www.fox.temple.edu/mcm_people/subhadeep-mukhopadhyay/ . І багато інших. Для мене однією з найцікавіших тем були широкі важелі та використання відтворюючого простору ядра Гільберта (RKHS) та чі-квадрата. Якщо на цій конференції був модальний підхід до структур залежності, це був RKHS.

Типові підручники з інтро статистики є функціональними в лікуванні залежності, зазвичай спираючись на презентації одного і того ж набору візуалізацій кругових чи параболічних відносин. Більш досконалі тексти будуть поглинатися в квартет Anscombe , візуалізація чотирьох різних наборів даних, що мають схожі, прості статистичні властивості, але сильно відрізняються взаємозв'язки: https://en.wikipedia.org/wiki/Anscombe%27s_quartet

Однією з чудових речей цього семінару було безліч структур і взаємозв'язків залежності, які візуалізувались та представлялися, виходячи далеко за рамки стандартного, функціонального лікування. Наприклад, Reshefs мав десятки мініатюрних графіків, які представляли лише вибірку можливих нелінійностей. У Глибокому Мухопадгаї були приголомшливі візуальні зображення дуже складних відносин, які більше нагадували супутниковий вид на Гімалаї. Статистику та авторам підручника з наукових даних потрібно взяти до відома.

Виходячи з конференції Колумбії з розвитком та візуалізацією цих високоскладних структур, парних залежностей, я залишив сумнів у здатності багатоваріантних статистичних моделей охоплювати ці нелінійності та складності.

— Майк Хантер
джерело

2

Я щойно натрапив на це чудове та вичерпне обговорення заходів асоціації в Quora: quora.com/…

— Майк Хантер

6

Це залежить від вашого точного визначення поняття "кореляція", але побудувати вироджені випадки не так вже й важко. "Незалежний" може означати щось на кшталт "відсутність прогнозуючої сили взагалі ніколи", стільки ж, скільки "лінійна кореляція".

$y= \sin(2000x)$ $x$ $[0,1)$

— Андрій Чарнескі
джерело

3

В основному залежність Y від X означає, що розподіл значень Y залежить від певного способу значення X. Ця залежність може бути від середнього значення Y (звичайний випадок, представлений у більшості відповідей) або будь-якої іншої характеристики Y.

Наприклад, нехай X дорівнює 0 або 1. Якщо X = 0, то Y дорівнює 0, якщо X = 1, нехай Y дорівнює -1, 0 або 1 (однакова ймовірність). X і Y є неспорідненими. У середньому, Y не залежить від X, оскільки яке б значення не було X, середнє значення Y дорівнює 0. Але явно розподіл значень Y залежить від значення X. Наприклад, дисперсія Y дорівнює 0, коли X = 0, і> 0, коли X = 1, таким чином, існує залежність від дисперсії, тобто існує залежність.

Отже, лінійна кореляція показує лише тип залежності від середнього значення (лінійна залежність), що в свою чергу є лише особливим випадком залежності.

— Карпабланка
джерело