Якщо кореляція не означає причинності, то яке значення знає співвідношення двох змінних?


11

Скажімо, як власнику бізнесу (або маркетингу, або тому, хто розуміє схему розкидання) відображається графік розкиду з двох змінних: кількість рекламних оголошень проти кількості продажів продукції на місяць за останні 5 років (або інший часовий масштаб, щоб ви є більше зразків. Я тільки що склав цей).

Тепер він / вона бачить графік розсіювання і йому кажуть, що коефіцієнт кореляції (corr) дорівнює:

  1. 1 або
  2. 0,5 або
  3. 0,11 або
  4. 0 або
  5. -0,75 або
  6. -1

В основному будь-яке дійсне значення для corr

Запитання: Що це навіть означає для особи, яка приймає рішення, або будь-якого споживача сюжету розсилки? Які рішення можна прийняти лише виходячи з цього?

Т.е.: Яке користь бачити кореляцію між будь-якими двома змінними і що можна зробити з цією інформацією поодиноко? Це лише бачити, що робити, а не враховувати для включення в регресійний аналіз, чи є більш практичне використання?

Що цікаво, я завжди працював з цією технікою, але мені говорили, що кореляція сама по собі не має великої користі - так що ж "ТАКЕ" використання?

Відповіді:


12

Кілька думок:

  • Старий канар про те, що кореляція не є причиною - це лише половина історії. Кореляція може не бути причиною, але певна форма асоціації між двома змінними є необхідним кроком на шляху до показу причинно-наслідкової зв'язку, і кореляція може допомогти показати це.
  • Це допомагає вказувати тенденції. Покажіть це власнику бізнесу, і вони можуть сказати "Так, це має сенс, ви бачите, що Widget X і Widget Y в кінцевому підсумку використовуються певною групою людей, хоча вони не дуже пов'язані. Або вони можуть сказати "це ... дивно", і тоді ви запропонували подальше розслідування.
  • Подивіться на це так. Кореляція - це інструмент. Молоток, сам по собі, не все так корисний. Це, звичайно, не побудує будинок самостійно. Але ви коли-небудь намагалися побудувати будинок без молотка?

5
У першій кулі ви говорите, що кореляція є необхідною умовою причинного зв'язку - це неправда. Якщо між двома змінними існує немонотонна залежність, то вони можуть бути некорельованими - це не виключає причинно-наслідкових зв’язків.
Макрос

@Macro - правда та відредаговано
Fomite

@Macro Правда, але на практиці ви можете застосувати функцію до змінної, щоб зробити відношення підданим випробуванню монотонним. якщо ви не знаєте цієї функції, то ... ви мало знаєте про те, що шукаєте
RockScience

@EpiGrad: Припустимо, графік кореляції XY двох змінних виглядає як щасливий смайлик (або будь-яка інша форма як така). Коефіцієнт кореляції насправді був би досить малим, але, безумовно, були б якісь взаємозв'язки, правда? Як / що робити в такому випадку?
Кандидат наук

@Nupul Дещо складніше дослідження XY за межами лінійності.
Фоміт

7

Подивіться на це з точки зору азартних ігор. Скажімо, ми знаємо, що в середньому люди, які надягають на роботу робочі черевики, отримають 1,5 травми на роботі, а люди, які носять мокасини, матимуть в середньому 0,05 травм. Або, можливо, шанси отримати травму для людини, яка носить робочі черевики, є .85, а шанси травмувати людину, яка носить мокасини, є .1.

Якщо я випадковим чином обрати людину з населення та скажу вам, що людина одягнена в робочі черевики, і запропоную вам рівну грошову ставку на те, чи отримали вони травму на робочому місці в минулому році, ви б взяли ставку? Ну, ви б взяли ставку, якби вам вдалося зробити ставку на сторону, що вони отримали травму .. 85% часу ви виграєте, і ви отримуєте рівні гроші.

Сенс полягає в тому, що ми знаємо, що ця інформація дає нам інформацію про те, чи можуть вони отримати травму на роботі. Взуття не має нічого спільного з цим, насправді робочі черевики запобігають травматизму. Але заплутана змінна тут це тип роботи, який поєднується з робочими чобітками. І, можливо, інші речі, такі як людина, можливо, більш необачні.


6

Фраза "кореляція не означає причинно-наслідкового зв'язку" стає переграною. (Як писав Коен, "це жахливо великий натяк".) Ми побивали цю фразу в учнів через упередженість, властиву людському розуму. Коли ви чуєте, що "рівень злочинності співвідноситься зі рівнем бідності", чи щось подібне, ви не можете не стверджувати, що це означає, що бідність спричиняє злочин. Людям природно це вважати, тому що так працює розум. Ми використовуємо цю фразу знову і знову в надії протидіяти цьому. Однак, як тільки ви поглинули ідею, фраза втрачає більшу частину своєї цінності, і настав час перейти до більш складного розуміння.

Коли існує кореляція між двома змінними, є дві можливості: це все збіг випадків, або є якась причинно-наслідкова закономірність у роботі. Називання шаблону у світі випадковим явищем є жахливим поясненням і, ймовірно, повинно бути вашим останнім заходом. Це залишає причинність. Проблема полягає в тому, що ми не знаємо природи цієї причинної закономірності. Цілком може бути, що бідність спричиняє злочинність, але може бути і те, що злочин спричиняє бідність (наприклад, люди не хочуть жити в зоні з високим рівнем злочинності, тому вони переїжджають, а цінності майна падають тощо). Також може бути, що існує якась третя змінна чи група змінних, що викликають злочинність і бідність, але насправді немає прямогопричинний зв’язок між злочинністю та бідністю (відома як модель «загальної причини»). Це особливо згубно, оскільки в статистичній моделі всі інші джерела варіації згортаються в термін помилки залежної змінної. В результаті незалежна змінна співвідноситься з (викликаною) терміном помилки, що призводить до проблеми ендогенності . Ці проблеми є дуже складними, і їх не слід сприймати легковажно. Тим не менш, навіть у цьому сценарії важливо визнати, що на роботі існує справжня причинність.

Коротше кажучи, коли ви бачите кореляцію, вам слід подумати, що, мабуть, є якась причинність, коли десь грається , але що ви не знаєте природи цієї причинної закономірності.


4

Я думав, що я знаю про ці речі, але лише минулого місяця я підняв «підказку» у словнику і виявив, що це має два разюче різних значення. 1. Запропонуйте і 2. Необхідно. (!) Кореляція рідко потребує причинного зв'язку, але це, безумовно, може підказати. Як зазначає @EpiGrad, це є необхідною, але недостатньою умовою встановлення причинної зв'язку.

З часом ми сподіваємось знайти середнє місце між баченням кореляції як кінцевого і цілком марним. І при врахуванні кореляційних результатів враховуються специфічні для предмета / домену / змісту знання. Мало хто поставив би під сумнів існування принаймні деякої причинної зв'язку при перегляді описаних вами рекламно-продажних результатів. Але завжди добре залишатися відкритими для інших можливостей, інших змінних, які могли б хоча б частково пояснити спостережувані відносини. Читання про заплутані змінні, термін дії тощо, окупаються великими дивідендами. Наприклад, у старому класичному квазі-експериментації Кука та Кемпбелла є хороший розділ щодо обгрунтованості та загрози обгрунтованості.


1
Як я вказував на @EpiGrad, кореляція не є необхідною умовою причинного зв'язку. В аналізі даних широко поширена думка про те, що зв'язок між змінними завжди відноситься до монотонного зв'язку, який мовчазно вважається припущенням, що кореляція є необхідною умовою причинного зв'язку.
Макрос

1
Досить справедливо. Скажімо, тоді потрібна "статистична асоціація".
rolando2

2

Коефіцієнт кореляції, як і інші заходи асоціації, корисний, якщо ви хочете знати, наскільки знання значення X є інформативним про значення Y. Це відрізняється від того, чи знаєте ви, якщо ви встановили X для певного значення, що значення Y, яке ви отримали (що є сутністю контрафактного тлумачення причинного зв'язку).

Тим не менш, у багатьох контекстах (наприклад, прогнозування) умовиводи, засновані на кореляції, були б цінні самі по собі. Жовті зуби співвідносяться з раком легені (оскільки вони є імовірнісно спричиненими раком). Між двома причинами немає: відбілюючі зуби не вилікували б рак легенів. Але якщо вам потрібен швидкий скринінг-тест на те, хто, ймовірно, має рак легенів, перевірка на наявність жовтих зубів може бути хорошим першим кроком.

Це зовсім інше питання, чи є коефіцієнт кореляції найкращим доступним показником асоціації, але я вважаю, що питання стосується більшої цінності пізнання позапричинної асоціації.

Btw, не тільки кореляція не є достатньою демонстрацією причинно-наслідкових зв’язків, але і не потрібна. Дві змінні можуть бути причинно пов'язані, але не виявляють кореляції в якомусь конкретному наборі даних (наприклад, через зміщення вибору або конфузи).


1

кореляція сама по собі не приносить великої користі - так що ж "ІЗ" використання?

Дозвольте мені не погодитись із цією фразою, кореляція дозволить знати рівень асоціації між двома змінними. Потім, це корисно, намагаючись пояснити відношення між такими змінними. З іншого боку, (як писав Макрос) кореляція не є необхідною умовою причинного зв'язку, однак достатньо для пояснення рівня асоціації. Крім того, ви можете перевірити незалежність змінних, але кореляція може дати вам ще одну корисну інформацію - коефіцієнт визначення.

Тим не менш, аналітик повинен знати домен, щоб мати можливість пояснити вид відносин.


Я не впевнений, що ви маєте на увазі під цим:Furthermore, you can test the independence of the variables, but correlation can give you another useful information, the coefficient of determination
Кандидат

Що я маю на увазі: "Ви можете перевірити незалежність змінних", але все одно, навіть якщо не перевіряєте незалежність, інформацію про кореляцію та коефіцієнт. детермінації "корисні" для розуміння та пояснення виду зв’язку між змінними.
Хосе Зубкофф

1

Я думаю, що збір даних та дизайн досліджень також можуть грати роль у відповіді на це питання. Ви не будете проектувати дослідження та збирати набір даних, абсолютно невідповідних один одному, навіть у спостережних дослідженнях. Тому "співвідношення не означає причинного зв'язку" може бути виправданим. Незважаючи на те, що це не причинно-наслідковий зв’язок, може бути пов’язана асоціація.

Однак якщо ви говорите про два набори даних, абсолютно невідповідні, але ви все ще хочете використовувати кореляцію для пояснення асоціації та причинного зв'язку, то це може бути недоцільним. Наприклад, якщо два даних мають тенденції до зниження, скажімо, продаж морозива та кількість шлюбів, коефіцієнт кореляції може бути дуже високим. Але чи потрібно мати на увазі асоціацію?

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.