Коли кореляція може бути корисною без причинного зв'язку?


27

Вислів домашніх тварин багатьох статистиків: "Кореляція не означає причинного зв'язку". Це, безумовно, вірно, але одне, що НЕ МАЄТЕ мається на увазі, це те, що кореляція має мало або не має значення. Це правда? Чи марно мати знання про те, що дві змінні співвідносяться?

Я не уявляю, що це так. Я не жахливо знайомий з прогнозним аналізом, але, здається, що якщо Xце провісник Y, було б корисно при прогнозуванні майбутніх значень на Yоснові X, незалежно від причинності.

Чи я неправильно бачу цінність у співвідношенні? А якщо ні, то в яких ситуаціях статистик або науковець може використовувати кореляцію без причинного зв'язку?


5
На мою думку, словосполучення «причинно-наслідкова зв’язок не передбачає кореляції» часто неправильно використовується, щоб означати, що статистиці не завжди слід довіряти (правда, але не завжди через відсутність причинності). Я настільки посилюється, коли бачу, як люди скидають цю фразу, посилаючись на те, чому прогнозний аналіз не так. Наприклад, facebook.com/notes/mike-develin/debunking-princeton/… - прекрасний приклад як жахливого аналізу, так і жахливого розвінчання жахливого аналізу.
Cliff AB

10
Наприклад, припустимо, ви виявили, що життя в певному місті корелює з ранньою смертю. Ви не можете зробити висновок, що життя в цьому місті спричиняє ранню смерть, а також те, що вихід людей з цього міста не допоможе їм жити довше. (Можливо, місто чомусь привабливе для хворих людей.) Але якщо ви є актуарієм, вам було б цілком виправдано хотіти стягувати вищі страхові внески членам цього міста - знання про це співвідношення може бути дуже цінним для ти.
Нейт Елдредж

2
Більше людей гине на півдні Англії, @NateEldredge. Це тому, що там люди виходять на пенсію.
TRiG

1
Відсутність кореляції має більший сенс, можливо.
Рафаель

Обов’язкова посилання на xkcd: xkcd.com/552
vsz

Відповіді:


32

Кореляція (або будь-яка інша міра асоціації) корисна для прогнозування незалежно від причинного зв'язку. Припустимо, ви вимірюєте чітку стійку зв'язок між двома змінними. Це означає, що знання рівня однієї змінної також надає вам певну інформацію про іншу цікаву змінну, яку ви можете використати, щоб допомогти передбачити одну змінну як функцію іншої та, що найголовніше, вжити певних дій на основі цього прогнозу . Вжиття заходів передбачає зміну однієї або декількох змінних, наприклад, при автоматизованій рекомендації або при використанні медичного втручання. Звичайно, ви могли б зробити кращі прогнози та діяти ефективніше, якби мали більше розуміння прямих чи непрямих зв’язків між двома змінними. Це розуміння може включати й інші змінні, включаючи просторові та часові.


4
Кореляції не завжди корисні для прогнозування. У випадках зворотної причинної зв'язку є важливі часові аспекти, які не завжди можна контролювати. Ми постійно стикаємося з цим із хворобою Альцгеймера. Ми постійно б'ємо головою об стіну, намагаючись розрізнити: чи впливають на біомарки, які ми знаходимо в мозку, що страждають від AD, хвороба чи викликана хворобою?
AdamO

1
@AdamO Я думаю, що моя відповідь охоплює цю базу в останньому реченні або двох, тому я не згоден з вами.
Brash Equilibrium

1
Проблема з причинним зв’язком насправді виникає лише в тому випадку, якщо ви намагаєтесь інтерпретувати свою модель прогнозування. (Звичайно, це те, що нас часто цікавить наука). Коли ми бачимо, що біомаркер Aє дуже хорошим прогнозувачем, дуже спокусливо стверджувати, що це також причина захворювання - І як згадувалося в коментарях, дуже легко дійти неправильних висновків. Якщо ми хочемо лише робити прогнози, наприклад сказати, чи є у пацієнта захворювання чи ні, проблем з кореляціями немає.
віл

1
Це неправда, і ось лише один приклад, чому. Якщо дія за вашими прогнозами передбачає зміну змінної та очікує, що ціль також зміниться, але насправді немає прямої зв'язку або причинно-наслідковий зв’язок піде іншим шляхом, тоді ви вчините неправильні дії. І перш ніж ви скажете, "але в цьому прикладі ви інтерпретуєте модель", я кажу, "в якому сценарії ви НЕ б робили висновку навіть із моделі, призначеної для прогнозування?" Відповідь: коли ви не дуже довіряєте причинно-наслідкових зв’язків, які має на увазі ваша модель.
Зрив рівноваги

1
@BrashEquilibrium: Є чимало способів діяти на прогнозі, які не передбачають жодних змін змінних змінних, які використовуються для отримання прогнозу. Цікаво дізнатись, чи повинен ваш магазин запасатися вовняними рукавицями? Знаючи, скільки морозива ви продавали останнім часом, може, звичайно, за гіпотетичної відсутності прямих джерел даних) зробити хороший прогноз.
Ільмарі Каронен

17

Тут вже багато хороших моментів. Дозвольте мені розпакувати ваше твердження, що "здається, що якщо Xце предиктор Y, було б корисно при прогнозуванні майбутніх значень на Yоснові X, незалежно від причинності". Ви маєте рацію: якщо все, що ви хочете, - вміти передбачити невідоме Yзначення від відомого Xзначення та відомого стабільного зв’язку, причинний стан цього відношення не має значення. Врахуйте, що:

  • Можна передбачити ефект від причини. Це інтуїтивно та безперечно.
  • Ви також можете передбачити причину з знання ефекту. Деякі, але дуже мало людей, які захворіли на рак легенів, ніколи не курили. Як результат, якщо ви знаєте, що у когось є рак легенів, ви можете з доброю впевненістю передбачити, що вони є / були курцем, незважаючи на те, що куріння є причиною, а рак - наслідком. Якщо трава на подвір’ї мокра, а спринклер не працює, ви можете передбачити, що пішов дощ, навіть якщо дощ - причина, а мокра трава - лише ефект. І т.д.
  • Ви також можете передбачити невідомий ефект від відомого ефекту тієї ж причини. Наприклад, якщо Біллі та Боббі однакові близнюки, і я ніколи не зустрічав Біллі, але я знаю, що Боббі - 5 '10' (178 см), я можу передбачити, що Біллі теж 178 см з хорошою впевненістю, незважаючи на те, що ні висота Біллі не спричиняє висоту Бобі, ні висота Боббі не спричиняють висоту Біллі.

7
Просто для того, щоб дати назви вашим категоріям: Ваші три види передбачення називаються (по порядку) відрахуванням , викраденням та індукцією .
Ніл Г

12

Вони не об'єднують важливості кореляції. Просто тенденція тлумачити кореляцію як причину.

Візьміть грудне вигодовування як ідеальний приклад. Матері майже завжди трактують висновки (спостереження) щодо грудного вигодовування як пропозицію щодо того, чи слід дійсно годувати грудьми чи ні. Це правда, що в середньому немовлята, які перебувають на грудному вигодовуванні, мають тенденцію бути здоровішими для дорослих людей навіть після контролю за довгим материнським та батьківським віком, соціально-економічним статусом тощо. Це не означає, що грудне вигодовування несе відповідальність за різницю, хоча це може бути частково грають роль у ранньому розвитку регуляції апетиту. Ці відносини дуже складні, і можна легко міркувати про цілу низку опосередковуючих факторів, які могли б лежати в основі розбіжностей, що спостерігаються.

Чимало досліджень шукає асоціацій, щоб гарантувати глибше розуміння того, що відбувається. Кореляція не є марною, вона знаходиться лише на кілька кроків нижче причинного зв'язку, і потрібно пам’ятати про те, як повідомляти про результати, щоб запобігти неправильному тлумаченню від неекспертів.


9

Ви праві, що кореляція корисна. Причина того, що причинно-наслідкові моделі кращі, ніж асоціативні, - це те, що, як каже Перл, вони є оракулами для втручання. Іншими словами, вони дозволяють міркувати гіпотетично. Причинно-наслідкова модель відповідає на питання "якби я зробив X, що буде з Y?"

Але не завжди потрібно гіпотетично міркувати. Якщо ваша модель тільки буде використовуватися , щоб відповісти на запитання на кшталт «якщо я спостерігаю X, що я знаю про Y?», Тоді асоціативна модель все що вам потрібно.


3
Oracles For Interventions було б гарною назвою для гурту.
Мальволіо

@Malvolio: хаха, це незабутньо короткий спосіб описати причинно-наслідкові моделі. Мені дуже подобається ця фраза.
Ніл Г

4

Ви впевнені, що кореляція корисна для прогнозування. Це також корисно для кращого розуміння досліджуваної системи.

Один випадок, коли знання про причинно-наслідковий механізм необхідні - це якщо маніпулювати цільовим розподілом (наприклад, деякі змінні були "змушені" приймати певні значення). Модель, заснована лише на кореляціях, буде поганою, тоді як модель, яка використовувала причинно-наслідкові дані, повинна працювати набагато краще.


2

Кореляція - корисний інструмент, якщо у вас є основна модель, яка пояснює причинність.

Наприклад, якщо ви знаєте, що прикладання сили до предмета впливає на його рух, ви можете виміряти співвідношення сили і швидкості, сили та прискорення. Більш сильна кореляція (з прискоренням) сама по собі буде пояснювальною.

У спостережувальних дослідженнях кореляція може виявити певні загальні закономірності (як зазначено грудне вигодовування та пізніше здоров'я), які можуть стати підставою для подальшого наукового дослідження за допомогою належної експериментальної конструкції, яка може підтвердити або відкинути причинну причину (наприклад, можливо, замість того, щоб годувати грудьми, було причиною цього наслідок для певних культурних рамок).

Отже, кореляція може бути корисною, але вона рідко може бути переконливою.


2

Як ви заявили, лише кореляція має велику корисність, головним чином, прогнозування.

ABAB

Наприклад, усі ці дослідження, що показують, що велике вживання кави у людей похилого віку співвідноситься із здоровою серцево-судинною системою, на мій погляд, неоднозначно мотивоване людьми, які бажають виправдати свої важкі звички до кави. Однак, сказати, що пити каву співвідноситься лише із здоровим серцем, а не з причинним, нічого не дає відповіді на наше справжнє цікаве питання: чи будемо ми здоровішими, якщо будемо пити більше кави або якщо зменшимо? Бути дуже цікавим може бути дуже цікавий результат (кава пов'язана із здоровішими сердечками!), Але не в змозі використовувати цю інформацію для прийняття рішень (досі не знаю, чи слід пити каву, щоб бути здоровішою), і тому майже завжди є спокуса трактувати кореляцію як причину.

Якщо, можливо, все, що вам цікаво, це азартні ігри (тобто ви хочете передбачити, але не впливати).


2

Кореляція є цінністю, але слід переглянути більше доказів, щоб зробити висновок про причинно-наслідкові зв’язки.

Роки тому було проведене дослідження, в результаті якого «кава викликає рак». Як тільки я почув це в новинах, я сказав своїй дружині "хибну кореляцію". Виявилося, я був прав. На 2-3 чашки кави на добу населення курило більше, ніж у тих, хто не пив каву. Як тільки збирачі даних з’ясували це, вони відкликали свої результати.

Ще одне цікаве дослідження перед житловим бумом та бюстом показало расизм, коли справа стосувалася обробки іпотеки. Твердження полягало у тому, що заявників із чорного кольору відхиляли швидше, ніж білих. Але інше дослідження розглядало ставки за замовчуванням. Власники чорних будинків дефолтували за швидкістю самих як білі. Якби чорну заявку проводили за вищим стандартом, їх ставка за замовчуванням фактично була б значно нижчою. Примітка: цим анекдотом поділився автор Томас Соуелл у своїй книзі "Житловий бум і бюст"

Дані даних можуть легко створити два набори даних, які показують високу кореляцію, але для подій, які не могли бути пов'язані. Зрештою, найкраще подивитись на дослідження, які направляються на ваш погляд, дуже критично. Знайти помилкові кореляції не завжди просто, це набутий талант.


Мені подобалось читати цю відповідь. Однак, здається, вирішувати зворотне питання: "Чи марно мати знання про те, що дві змінні співвідносяться? ... У яких ситуаціях статистик або вчений може використовувати кореляцію без причинного зв'язку?"
whuber

1
"Власники чорних будинків дефолтом ставляться до норми самовизначення, як білі. Якби чорні заявки трималися за більш високим стандартом, їх ставка за замовчуванням фактично була б набагато нижчою". підскакує до висновків. Це саме ця проблема; чорні заявники статистично відрізняються від білих заявників, і якщо більше чорношкірих є у групі, яка, швидше за все, прийняла заборгованість за іпотекою, заявники, що мають чорний темп, що мають однакову ставку за замовчуванням, вказували б на дискримінацію. Відокремити незрозумілі наслідки важко.
профілі

Як я вже заявив, анекдот походив від відомого вченого-чорного. І знадобилося набагато більше, ніж абзац, який потрібно обговорити в книзі, на яку я посилався.
JTP - Вибачте Моніку

1

Кореляція - явище, що спостерігається. Ви можете її виміряти. Ви можете діяти на цих вимірах. Сам по собі він може бути корисним.

Однак якщо все, що у вас є, є співвідношенням, ви не маєте жодної гарантії, що внесені вами зміни дійсно матимуть ефект (див. Знамениті графіки, що прив'язують підйом iPhones до закордонного рабства тощо). Це просто показує, що там є кореляція, і якщо ви налаштовуєте навколишнє середовище (діючи), це співвідношення все ще може бути.

Однак це дуже тонкий підхід. У багатьох сценаріях ми хочемо мати менш тонкий інструмент: причинність. Причинність - це кореляція, поєднана з твердженням, що якщо ви налаштовуєте своє оточення, діючи так чи інакше, слід очікувати, що кореляція все ще буде. Це дозволяє довгостроково планувати, наприклад, ланцюжок 20 або 50 причинних подій поспіль, щоб визначити корисний результат. Якщо це зробити з 20 або 50 кореляціями, часто залишається дуже нечіткий і мутний результат.

Як приклад того, як вони були корисні в минулому, розглянемо західну науку проти традиційної китайської медицини (ТКМ). Західна наука зосереджується головним чином на "Розробити теорію, виділити тест, який може продемонструвати теорію, запустити тест і задокументувати результати". Це починається з «розробки теорії», яка сильно прив’язана до причинності. TCM крутив його навколо, починаючи з "розробити тест, який може дати корисні результати, запустити тест, виявити кореляції у відповіді". Основна увага приділяється кореляціям.

Сьогодні західні люди, як правило, вважають за краще мислити майже повністю з точки зору причинності, тому значення вивчення кореляції важче шпигувати. Однак ми виявляємо, що він ховається у кожному куточку нашого життя. І ніколи не забувайте, що навіть у західній науці кореляції є важливим інструментом для визначення того, які теорії варто вивчити!

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.