Якщо "кореляція не передбачає причинно-наслідкового зв'язку", то, якщо я знаходжу статистично значущу кореляцію, як я можу довести причинність?


30

Я розумію, що кореляція не є причиною . Припустимо, ми отримуємо високу кореляцію між двома змінними. Як ви можете перевірити, чи є ця кореляція насправді причиною? Або, за яких саме умов, ми можемо використовувати експериментальні дані для виведення причинно-наслідкового зв'язку між двома або більше змінними?


2
Для цього знадобляться експериментальні дані. Опишіть, будь ласка, експериментальний дизайн, на який ви посилаєтесь.
Френк Харрелл

1
Сер, у мене немає експериментальних даних. Я хотів зрозуміти, які контрольовані експерименти потрібно провести, щоб вивести причинно-наслідкові зв’язки?
Manish Barnwal

4
Існує багато можливих конструкцій. Коротше кажучи, ви намагаєтесь фізично контролювати всі інші змінні та змінювати один із факторів, що цікавлять вас, або рандомізувати застосування експериментальної маніпуляції, яка "усереднює" ефекти всіх інших можливих пояснень.
Френк Харрелл

2
Коротше кажучи, вам потрібна якась екзогенна варіація.
абауман

1
Між співвіднесеним Xі Yвиберіть те, що є причиною іншого, що зведе до мінімуму почуття відповідальності та максимізує почуття долі.
ttnphns

Відповіді:


16

Дуже ймовірною причиною співвідношення двох змінних є те, що їх зміни пов'язані з третьою змінною. Інші ймовірні причини - випадковість (якщо ви протестуєте достатню кількість некорельованих змінних для кореляції, деякі покажуть кореляцію) або дуже складні механізми, що передбачають кілька кроків.

Дивіться http://tylervigen.com/ для таких прикладів:

введіть тут опис зображення

Щоб впевнено констатувати причину A -> B, вам потрібен експеримент, де ви можете керувати змінною A і не впливати на інші змінні. Тоді ви вимірюєте, чи існує кореляція A і B, якщо ви зміните змінну.

Практично для всіх практичних застосувань майже не можна впливати на інші (часто невідомі) змінні, тому найкраще, що ми можемо зробити, це довести відсутність причинно-наслідкових зв’язків.

Щоб мати змогу констатувати причинно-наслідковий зв’язок, ви починаєте з гіпотези про те, що 2 змінні мають причинно-наслідковий зв’язок, використовуйте експеримент, щоб спростувати гіпотезу, і якщо ви не зможете, то можете з певним твердженням стверджувати, що гіпотеза правдива. Наскільки високим є рівень вашої визначеності, залежить від вашої галузі досліджень.

У багатьох полях звичайно або необхідно запустити паралельно дві частини експерименту: ту, де змінена змінна A, і контрольна група, де змінна A не змінена, але в іншому випадку експеримент точно такий же - наприклад у випадку ліки ви все ще наклеюєте предмети голкою або змушуєте їх проковтнути таблетки. Якщо експеримент показує кореляцію між A і B, але не між A і B '(B контрольної групи), можна припустити причинно-наслідкову ситуацію.

Існують також інші способи зробити висновок про причинність, якщо експеримент або неможливий, або недоцільний з різних причин (мораль, етика, PR, вартість, час). Один поширений спосіб - використовувати відрахування. Беручи приклад з коментаря: щоб довести, що куріння викликає рак у людини, ми можемо використати експеримент, щоб довести, що куріння викликає рак у мишей, а потім довести, що між курінням і раком у людини існує кореляція, і вивести, що тому це надзвичайно ймовірно, що куріння викликає рак у людини - цей доказ може бути посилений, якщо ми також спростуємо, що рак викликає куріння. Іншим способом зробити висновок про причинність є виключення інших причин кореляції, залишаючи причинність як найкраще пояснення кореляції - цей метод не завжди застосовується, тому що іноді неможливо усунути всі можливі причини кореляції (в іншій відповіді називають "зворотні доріжки"). На прикладі куріння / раку ми могли б, ймовірно, використовувати такий підхід, щоб довести, що куріння є причиною дьогтю в легенях, оскільки для цього не так багато можливих джерел.

Ці інші способи «доведення» причинності не завжди є ідеальними з наукової точки зору, оскільки вони не такі переконливі, як простіший експеримент. Дебати про глобальне потепління - прекрасний приклад, який показує, як набагато простіше відмовитись від причинно-наслідкових зв’язків, які ще не були остаточно доведені повторюваним експериментом.

Для комічного полегшення ось приклад експерименту, який є технічно правдоподібним, але недоцільним через наукові причини (мораль, етика, PR, вартість):

Зображення взято з phroyd.tumblr.com


3
Це занадто сильний стан. В епідеміології вимоги менш суворі, тому що контролювати експеримент в кращому випадку непрактично, а в гіршому - неетично - "чи викликає куріння сигарет рак"
користувач295691

2
Приклад, який надає Перл, показує, що куріння викликає рак у людей, - це метод вхідних дверей, завдяки якому дьоготь розглядають як проміжну змінну між курінням і раком. Я не знаю, що ви маєте на увазі під "не ідеальним". Це, безумовно, більш ідеально, ніж змушувати людей курити і бачити, якщо вони захворіли на рак!
Ніл G

1
@Neil "Це, безумовно, більш ідеально, ніж примушувати людей курити і бачити, чи захворіли вони на рак" - Якщо мета - довести причинно-наслідковий зв’язок, я категорично не згоден. З іншого боку, якщо мета - уникнути етичної проблеми, скорочення фінансування чи натовпу лінчу, то це більш ідеально, так.
Пітер

10

Незалежно від того, є конструкція експериментальною чи спостережною, асоціація між змінною A та результатом Y відображає причинно-наслідковий зв’язок між A і Y, якщо між A і Y немає відкритих зворотних шляхів.

В експериментальній конструкції це найлегше досягти шляхом рандомізації впливу або призначення лікування. Якщо не мати ідеальної рандомізації, ефект асоціаційного лікування - це об'єктивна оцінка ефекту лікування причинно-наслідкового зв’язку за припущеннями обмінності (призначення лікування не залежить від контрфактичних результатів), позитивності тощо ...

Список літератури

Ернан, Робінс. Перлина причинного висновку
. Причинний вихід у статистику: огляд

PS Ви можете перейти в Google для причинного висновку та наступних імен (для початку) для отримання додаткової інформації по темі: Джудея Перл, Дональд Рубін, Мігель Ернан.


Подивіться тут: en.wikipedia.org/wiki/Correlation_does_not_imply_causation Я суперечу твердженням Еша: Незалежно від того, експериментальна чи спостережлива конструкція, асоціація між змінною A і результатом Y відображає причинно-наслідковий зв’язок між A і Y, якщо є немає відкритих задніх доріжок між A і Y. Наприклад, продаж морозива, смерть Y у басейнах; співвідносяться, але причиною їх збільшення чи зниження є температура. Можливо, Еш має на увазі відкриті дорожні шляхи як залежно від третьої змінної, але тоді його формулювання дуже незрозуміле.
Карл

Шлях заднього дверей у вашому прикладі - сезон. Задній шлях означає третю змінну.
Ніл G

Для тих, хто не знайомий з внесками Джудеї Перл у дослідження причинності, може бути корисним прочитати його біографію з веб-сайту Асоціації обчислювальної техніки, яка присудила йому премію Тьюрінга 2011 року. Перл обговорює необхідність включення в інтерв'ю Amstat News більше обговорення причинно-наслідкового висновку у навчальних програмах статистичної освіти .
jthetzel

Коментарі не для розширеного обговорення; ця розмова переміщена до чату .
gung - Відновіть Моніку

3

Розглянемо збільшення рівня розлучень, пов'язане зі збільшенням доходу адвоката.

Інтуїтивно зрозуміло, що ці показники повинні бути співвіднесені. Більше пар (попиту) подають більше розлучень, тому більше юристів (пропозиція) підвищують ціни.

Здається, що підвищення рівня розлучень спричиняє збільшення доходів адвокатів, оскільки додатковий попит пар змусив адвокатів підвищити ціни.

Або це назад? Що робити, якщо адвокати навмисно і незалежно підняли ціни, а потім витратили новий дохід на рекламу розлучень? Це також здається правдоподібним поясненням.

Цей сценарій ілюструє довільну кількість третіх пояснювальних змінних, які може виявити статистичний аналіз. Розглянемо наступне:

  1. Ви не можете виміряти кожну точку даних,
  2. Ви хочете усунути кожну не пояснювальну точку даних,
  3. Ви можете виправдати, чому слід усунути точку даних, якщо її виміряти.

У вас є загадка. Ви не можете виміряти кожну точку даних, якщо ви хочете виправдати ігнорування непояснювальних точок даних, їх потрібно виміряти. (Ви можете усунути деякі точки даних, не вимірюючи їх, але вам потрібно принаймні обґрунтувати їх.)

У безмежній системі жодне підтвердження причинності не може бути правильним.


2

Якщо A і B співвідносяться, і після того, як ви виключили збіг, найімовірніше, що або A викликає B, або B викликає A, або якась невідома причина X викликає і A, і B.

Першим кроком було б вивчення можливого механізму. Чи можете ви подумати про те, як A може мати випадок B, чи навпаки, чи яка інша причина X може викликати і те й інше? (Це припущення, що це обстеження дешевше, ніж проведення експерименту, який намагається довести причину). Ви, сподіваємось, опинитеся в положенні, коли експеримент із виявлення причинно-наслідкових зв’язків виглядає вартим. Ви можете продовжити, якщо ви не можете придумати механізм (A викликає B, але ми не маємо поняття, чому це можливо).

У цьому експерименті вам потрібно мати можливість маніпулювати підозрою на причину (наприклад, якщо причиною є "прийняття таблетки А", тоді деякі люди отримають таблетку, інші не зможуть). Тоді ви вживаєте звичайних заходів обережності, вибираючи людей, які отримують або не отримують таблетку навмання, причому ні ви, ні ті, хто перевіряв, не знали, хто отримав таблетку, а хто ні. Ви також намагаєтесь залишити решту експерименту рівним (давати таблетку А людям у приємному теплому приміщенні, коли сонячне світло потрапляє через вікно, а інша група отримує підроблену таблетку в брудній, незручній кімнаті, що може вплинути на ваші дані). Отже, якщо ви зробили висновок, що єдиною різницею є те, що таблетка, і причиною отримання або не отримання таблетки було випадкове рішення, яке не впливало ні на що інше,


2

Інтервенціональні (експериментальні) дані, описані Гнашером та Пітером, - це найпростіший спосіб зробити хороший випадок причинно-наслідкового зв'язку. Однак, лише у відповіді Еша згадується можливість виведення причинно-наслідкового зв’язку за допомогою даних спостережень. Окрім методу заднього ходу, про який він згадує, метод вхідних дверей є ще одним способом встановлення причинності на основі даних спостережень та деяких причинних припущень. Їх виявила Юдея Перл. Я спробував узагальнити і надати посилання на них тут .


0

Щоб зробити причинно-наслідкову заяву, вам потрібно мати як випадкову вибірку, так і випадкове призначення

  • Випадкова вибірка: кожна людина має рівну ймовірність бути обраними для дослідження
  • Випадкове призначення: кожна людина в експерименті проявляє дещо різні риси.

Отже, підбираючи лікування та контрольну групу із зазначеної вище вибіркової групи, однакова кількість людей із подібною ознакою повинна бути як у лікуванні, так і у контрольній групі.

Група лікування є група , в якій ліки дається людям. Контрольна група є групою , в якій ліки не дано. Ви також можете визначити групу плацебо, де суб'єктам не дають ліки, але їм кажуть, що їм дають.

Нарешті, якщо ефекти помітні в лікувальній групі, але не в контрольній групі, тоді ми можемо встановити причинно-наслідкову ситуацію.


На мою думку, група плацебо абсолютно необхідна. Також люди, відповідальні за обробку випробуваних, не повинні знати, хто в якій групі ("подвійний сліпий"). Все, що менше, я вважав би точно ненадійним. Тестування непросте.
mafu

Випадкові рандомізовані контрольовані випробування плацебо є більш автентичними, ніж випадкові контрольовані випробування, проте причинно-наслідкові заяви можуть бути зроблені за допомогою рандомізованих контрольованих випробувань
show_stopper

2
"Щоб зробити причинно-наслідкову заяву, вам потрібно мати як випадкову вибірку, так і випадкове призначення" - це неправда. Дивіться методи вхідних та задніх дверей.
Ніл Г
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.