Чому незалежність передбачає нульову кореляцію?


16

Перш за все, я цього не запитую:

Чому нульова кореляція не передбачає незалежності?

Це вирішено (досить приємно) тут: /math/444408/why-does-zero-correlation-not-imply-independence

Що я прошу - це протилежне ... скажімо, дві змінні повністю незалежні одна від одної.

Чи не могли вони мати крихітний кореляційний зв’язок випадково?

Чи не повинно бути ... незалежність передбачає ДУЖЕ МАЛУ кореляцію?


5
Навіть незалежні змінні майже завжди матимуть ненульовий ЗРАЗДОК, хоча, ймовірно, все ще буде близький до нуля.
jsk

10
Як зазначав @jsk, ви можете заплутати зразок кореляції із очікуваною кореляцією
Девід,

1
@David, ти можеш пояснити? Я все ще дуже новачок у статистиці.
Джошуа Роніс

3
@JoshuaRonis Зразок кореляції - це кореляція, яку ви спостерігаєте під час роботи з купою даних. Ви використовуєте це для отримання уявлення про те, що таке "справжня" кореляція між двома змінними. Чим більший зразок, тим кращу оцінку ви отримаєте. Наприклад, кореляція між результатами двох костей є незалежною, тому некорельована, навіть якщо ви згорнете їх десять разів, ви можете отримати кореляцію (через випадковий випадок). (тобто у вас однаковий шанс для кожного)
Девід,

1
Не обдурена, але пов'язана з цим дискусія: Чи ненульова кореляція означає залежність?
SecretAgentMan

Відповіді:


36

За визначенням коефіцієнта кореляції, якщо дві змінні незалежні, їх кореляція дорівнює нулю. Таким чином, це не могло випадково мати будь-яку кореляцію!

ρX,Y=E[XY]E[X]E[Y]E[X2][E[X]]2 E[Y2][E[Y]]2

Якщо X і Y незалежні, значить E[XY]=E[X]E[Y] . Отже, чисельник ρX,Y дорівнює нулю в цьому випадку.

Отже, якщо ви не зміните значення співвідношення, про яке говорилося тут, це неможливо. Якщо тільки не уточнити своє визначення з того, що таке кореляція.


2
І все ж у нас є діаграми, що чітко показують (обернену) кореляцію між кількістю піратів і середньою глобальною температурою. Як зазначають інші коментарі, треба бути обережними щодо розмірів вибірки, не кажучи вже про «випадкові
прояви

@OmG "якщо ви не зміните значення кореляції, як згадувалося тут" Коли я читав питання про ОП, я отримав зовсім інше значення "кореляція". Мені: "Хіба вони не могли мати крихітну кореляцію випадково?" дуже рішуче має на увазі "вимірювання" кореляції, і коли ви вимірюєте кореляцію в реальності, ви дуже часто виявите "крихітний шматочок кореляції випадково".
industry7

1
@ industry7 Я бачу. Але це слід визначити формальним методом. Це якісно, ​​і ми не можемо тут про це говорити.
OmG

@CarlWitthoft Кількість піратів та середня глобальна температура не залежать. Вони мають загальну причину (тобто час, розвиток, модернізацію тощо), яка створює залежність між ними. "Незалежність" не означає "не викликає"; це означає "неасоційований", і ці графіки чітко демонструють асоціацію.
Ной

@Noah Я боюся, що трапилось КОГО. venganza.org
Карл Віттофт

19

Коментар на зразку кореляції. Порівнюючи дві невеликі незалежні вибірки однакового розміру, кореляція вибірки часто помітно відрізняється від r=0. [Ніщо тут не суперечить відповіді @ OmG (+1) щодо кореляції популяції ρ.]

Розглянемо співвідношення мільйона пар незалежних зразків розміром n=5 від експоненціального розподілу зі швидкістю 1.

set.seed(616)
r = replicate( 10^6, cor(rexp(5), rexp(5))  )
mean(abs(r) > .5)
[1] 0.386212
mean(r)
[1] -0.0005904455

hist(r, prob=T, br=40, col="skyblue2")
  abline(v=c(-.5,.5), col="red", lwd=2)

enter image description here

Наприклад, ось розсіювач першої з мільйона пар зразків розміром 5, для яких r=0.5716.

enter image description here

Немає нічого особливого в експоненціальному розподілі в цьому плані. Зміна батьківського розподілу на стандартний нормальний дала наступні результати.

set.seed(2019)
...
mean(abs(r) > .5)
[1] 0.391061
mean(r)
[1] 1.43269e-05

enter image description here

n=20.

enter image description here

r


6
Що стосується невеликого розміру вибірки, ви, ймовірно, знайдете зразкові кореляції, які "помітно" відрізняються від нуля, але ви більше не можете знайти кореляції, які є значно відрізняються від нуля. Незважаючи на те, що ваша бальна оцінка далеко не нульова, у вас є занадто мало даних, щоб впевнено стверджувати, що ви бачите ненульову кореляцію через що-небудь, крім випадкових випадків. Маючи лише 5 пар, навіть коефіцієнти кореляцій, що перевищують 0,8, можуть не суттєво відрізнятися від 0.
Ядерний Ван,

11

Проста відповідь: якщо дві змінні незалежні, то кореляція сукупності дорівнює нулю, тоді як вибіркова кореляція зазвичай мала, але не нульова.

Це тому, що вибірка не є ідеальним поданням населення.

Чим більша вибірка, тим краще вона представляє сукупність, тим менша кореляція у вас буде. Для нескінченного зразка кореляція була б нульовою.


1
pϵnnϵ менше, ніж p.
Нагромадження

Так, абсолютно правильно! Я намагався зберегти свою відповідь максимально простою та концептуальною.
Дейв

1

Можливо, це корисно для деяких людей, які поділяють таке ж інтуїтивне розуміння. Ми всі бачили щось подібне:

enter image description here

Ці дані, ймовірно, незалежні, але чітко виявляють кореляцію (r=0,66). "Я думав, що незалежність передбачає нульову кореляцію!" каже студент.

Як вже вказували інші, значення вибірки співвідносяться, але це не означає, що у населення існує ненульова кореляція.

Звичайно, ці двоє мають бути незалежними - якщо Ніколас Кейдж з'явився в 10-ти фільмів цього року, ми не повинні закривати місцевий басейн на літо з метою безпеки.

Але коли ми перевіряємо, скільки людей потонуло цього року, є невелика ймовірність, що цього року потонуть рекордні 1000 людей.

Отримати таку кореляцію малоймовірно. Можливо, одна з тисячі. Але це можливо, навіть якщо вони незалежні. Але це лише один випадок. Вважайте, що там можна відміряти мільйони можливих подій, і ви можете побачити шанс того, що шанси деяких двох, що трапляються, дають високу кореляцію, досить високі (отже, існування таких графіків, як вище).

Інший спосіб поглянути на це - те, що гарантування того, що два незалежні події завжди даватимуть непов'язані значення, саме по собі є обмежувальним. Враховуючи дві незалежні кістки та результати першої, існує певний (значний) набір результатів для другої кістки, який дасть певну ненульову кореляцію. Обмеження результатів другої кістки давати нульову кореляцію першому є явним порушенням незалежності, оскільки рулони перших кісток тепер впливають на розподіл результатів.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.