Якщо дві змінні мають 0 кореляцію, чому вони не обов'язково є незалежними? Чи незалежні кореляційні змінні незалежні за особливих обставин? Якщо можливо, я шукаю інтуїтивне пояснення, а не високо технічне.
Якщо дві змінні мають 0 кореляцію, чому вони не обов'язково є незалежними? Чи незалежні кореляційні змінні незалежні за особливих обставин? Якщо можливо, я шукаю інтуїтивне пояснення, а не високо технічне.
Відповіді:
Кореляція вимірює лінійну асоціацію між двома заданими змінними, і вона не зобов'язана виявляти будь-яку іншу форму асоціації.
Тож ці дві змінні можуть бути пов'язані кількома іншими нелінійними способами, і кореляція не може відрізняти від незалежного випадку.
Існує узагальнена відсутність суворості у використанні слова "кореляція" з тієї простої причини, що воно може мати широкі різні припущення та значення. Найпростішим, найбіднішим і найпоширенішим використанням є те, що між статичною парою випадкових змінних є певна асоціація, взаємозв'язок або відсутність незалежності.
Тут згадується метрика за замовчуванням, як правило, кореляція Пірсона , яка є стандартизованою мірою попарної, лінійної асоціації між двома безперервно розподіленими змінними. Однією з найпоширеніших зловживань Пірсона є повідомлення про це у відсотках. Це точно не відсоток. Пірсона кореляції, г , знаходиться в діапазоні між 1,0 і +1,0 де 0 означає відсутність лінійної асоціації. Інші не настільки широко відомі проблеми використання кореляції Пірсона, як за замовчуванням, - це те, що це насправді досить суворий, ненадійний показник лінійності, що вимагає інтервальних масштабів як вхідних даних (див. Чудовий документ Пола Ендречта наКореляція та залежність в управлінні ризиками: властивості та підводні камені тут: https://people.math.ethz.ch/~embrecht/ftp/pitfalls.pdf ).
Embrechts зазначає, що існує багато помилкових припущень про залежність, які починаються з припущень базової структури та геометричної форми цих відносин:
Ці помилки виникають з наївного припущення, що властивості залежності еліптичного світу зберігаються і в нееліптичному світі
Embrechts вказує на копули як на набагато ширший клас показників залежності, використовуваних у фінансах та управлінні ризиками, серед яких кореляція Пірсона - лише один тип.
Відділ статистики Колумбії 2013-2014 навчальний рік зосередився на розробці більш глибокого розуміння структур залежності: наприклад, лінійної, нелінійної, монотонної, рангової, параметричної, непараметричної, потенційно дуже складної та має великі відмінності в масштабуванні. Рік закінчився триденним семінаром та конференцією, яка зібрала більшість найкращих учасників у цій галузі ( http://datascience.columbia.edu/workshop-and-conference-nonparametric-measures-dependence-apr-28-may- 2 ).
Ці автори включали в себе Reshef Brothers, в даний час відомий за 2011 рік Науки паперового виявлення Novel асоціацій у великих наборах даних http://www.uvm.edu/~cdanfort/csc-reading-group/reshef-correlation-science-2011.pdf що зазнав широкої критики (див. AndrewGelman.com за гарний огляд, опублікований одночасно з подією Columbia: http://andrewgelman.com/2014/03/14/maximal-information-coefficient ). Reshefs звернулися до всіх цих критичних питань у своїй презентації (доступна на веб-сайті конференції Columbia), а також набагато більш ефективним алгоритмом MIC.
На цьому заході було представлено багато інших провідних статистиків, включаючи Габора Секелі, який зараз працює в НСФ в окрузі Колумбія. Секелі розробив кореляцію своєї відстані та часткової відстані . Deep Mukhopadhay, Temple U, представляючи свій Єдиний статистичний алгоритм - основу для уніфікованих алгоритмів науки про дані - на основі роботи, виконаної з Євгеном Франценом http://www.fox.temple.edu/mcm_people/subhadeep-mukhopadhyay/ . І багато інших. Для мене однією з найцікавіших тем були широкі важелі та використання відтворюючого простору ядра Гільберта (RKHS) та чі-квадрата. Якщо на цій конференції був модальний підхід до структур залежності, це був RKHS.
Типові підручники з інтро статистики є функціональними в лікуванні залежності, зазвичай спираючись на презентації одного і того ж набору візуалізацій кругових чи параболічних відносин. Більш досконалі тексти будуть поглинатися в квартет Anscombe , візуалізація чотирьох різних наборів даних, що мають схожі, прості статистичні властивості, але сильно відрізняються взаємозв'язки: https://en.wikipedia.org/wiki/Anscombe%27s_quartet
Однією з чудових речей цього семінару було безліч структур і взаємозв'язків залежності, які візуалізувались та представлялися, виходячи далеко за рамки стандартного, функціонального лікування. Наприклад, Reshefs мав десятки мініатюрних графіків, які представляли лише вибірку можливих нелінійностей. У Глибокому Мухопадгаї були приголомшливі візуальні зображення дуже складних відносин, які більше нагадували супутниковий вид на Гімалаї. Статистику та авторам підручника з наукових даних потрібно взяти до відома.
Виходячи з конференції Колумбії з розвитком та візуалізацією цих високоскладних структур, парних залежностей, я залишив сумнів у здатності багатоваріантних статистичних моделей охоплювати ці нелінійності та складності.
Це залежить від вашого точного визначення поняття "кореляція", але побудувати вироджені випадки не так вже й важко. "Незалежний" може означати щось на кшталт "відсутність прогнозуючої сили взагалі ніколи", стільки ж, скільки "лінійна кореляція".
В основному залежність Y від X означає, що розподіл значень Y залежить від певного способу значення X. Ця залежність може бути від середнього значення Y (звичайний випадок, представлений у більшості відповідей) або будь-якої іншої характеристики Y.
Наприклад, нехай X дорівнює 0 або 1. Якщо X = 0, то Y дорівнює 0, якщо X = 1, нехай Y дорівнює -1, 0 або 1 (однакова ймовірність). X і Y є неспорідненими. У середньому, Y не залежить від X, оскільки яке б значення не було X, середнє значення Y дорівнює 0. Але явно розподіл значень Y залежить від значення X. Наприклад, дисперсія Y дорівнює 0, коли X = 0, і> 0, коли X = 1, таким чином, існує залежність від дисперсії, тобто існує залежність.
Отже, лінійна кореляція показує лише тип залежності від середнього значення (лінійна залежність), що в свою чергу є лише особливим випадком залежності.