Приклади навчання: Кореляція не означає причинно-наслідкового зв’язку


74

Є стара приказка: "Кореляція не означає причинно-наслідкового зв'язку". Коли я викладаю, я схильний використовувати такі стандартні приклади для ілюстрації цього моменту:

  1. кількість лелек та народжуваність у Данії;
  2. кількість священиків в Америці та алкоголізм;
  3. на початку XX століття було відмічено, що існує сильна кореляція між "Кількістю радіостанцій" та "Кількістю людей у ​​божевільних притулках"
  4. і мій улюблений: пірати викликають глобальне потепління .

Однак я не маю жодних посилань на ці приклади, і хоча вони кумедні, вони, очевидно, помилкові.

У когось є якісь хороші приклади?


2
Перегляньте Freakonomics кілька чудових прикладів. Їх бібліографія - повна посилання.
Стівен Тернер


5
Ця графіка піратів / глобального потепління чітко готується теоретиками змови - кожен може побачити, що вони навмисно побудували навіть розбіжності на неоднакові часові періоди, щоб уникнути недавнього різкого підвищення температури, оскільки пірати майже повністю знищені. Ми всі знаємо, що в міру підвищення температури ром випаровується, а пірати не можуть пережити ці умови. ;-)
AdamV

4
WTF готовий до осі x на цьому піратському графіку?
naught101

1
Або майже все, що ви вкладаєте в Google Correlate , прийміть це.
кон'югатприор

Відповіді:


39

Може бути корисним пояснити, що "причини" - це асиметричне відношення (X причини Y відрізняються від Y викликає X), тоді як "співвідноситься з" - симетричне відношення.

Наприклад, населення бездомних та рівень злочинності можуть бути співвіднесеними, оскільки обидва мають тенденцію бути високими або низькими в одних і тих же місцях. Не менш справедливо сказати, що чисельність бездомних людей співвідноситься зі ступенем злочинності, або рівень злочинності співвідноситься з бездомними. Сказати, що злочин спричиняє безпритульність, або безпритульне населення спричиняє злочин - це різні твердження. І кореляція не означає, що те й інше є істинним. Наприклад, основною причиною може бути 3-я змінна, така як зловживання наркотиками або безробіття.

Математика статистики не вдається визначити основні причини, що вимагає певної форми судження.


3
Судження - це гарне слово, оскільки все, що ми можемо спостерігати, - це кореляція. Все, що можуть зробити експерименти та / або розумні статистичні дані, дозволяє нам виключити деякі альтернативні пояснення того, що могло спричинити ефект.
Йонас

Дуже хороший коментар щодо симетричних / асиметричних відносин. Можна також стверджувати, що глобальне потепління викликає посилення піратства.
Андре Хольцнер

27

Мої улюблені:

1) Чим більше пожежників відправлено на пожежу, тим більше шкоди нанесено.

2) Діти, які навчаються, отримують гірші оцінки, ніж діти, які не навчаються

і (це мій найкращий)

3) У перші початкові шкільні роки астрологічний знак співвідноситься з IQ, але ця кореляція слабшає з віком і зникає зрілим віком.


2
(@xmjx поставив перший приклад минулого року.) Я люблю приклад астрології.
whuber

Чи можете ви пояснити зразок астрологічним знаком?
Євген Д. Губенков

2
Неважливо, я це зрозумів. Це пов'язано з різницею у віці між тими, хто народився на початку року, і тим, хто народився в кінці. Приємно.
Євген Д. Губенков

24

Мені завжди подобався цей:

лимони проти смертей

джерело: http://pubs.acs.org/doi/abs/10.1021/ci700332k


1
Добре, але я не бачу, щоб хтось намагався зробити висновок про причинність. Або мексиканські водії вантажівок з лимонними вантажівками є надзвичайно небезпечними, коли вони перебираються через кордон?
AdamV

2
Очевидно, що несподіваний побічний ефект від проникнення законів про лимон у США. Наприклад дивіться: en.wikipedia.org/wiki/Lemon_law
Thylacoleo

11
Кожен мій колега переглянув дані цього періоду після 2000 року і виявив, що відносини пройшли досить добре "поза вибіркою", що ще більше турбує ...
shabbychef


Проста раціоналізація полягала б у тому, що обидва з часом зменшуються. Чи підтримують це дані після 2000 року? PS, Box Hunter та Hunter (див. Нижче) пояснюють на прикладі лелеки однаково: обидва збільшуються з часом за відповідний період.
Еміль Фрідман

23
  1. Іноді кореляції достатньо. Наприклад, у страхуванні автомобілів чоловіки-водії співвідносяться з більшою кількістю нещасних випадків, тому страхові компанії стягують їх більше. Немає можливості насправді перевірити це на причинну причину. Ви не можете експериментально змінити стать водіїв. Google заробив сотні мільярдів доларів, не піклуючись про причину.

  2. Щоб знайти причинно-наслідкову ситуацію, зазвичай потрібні експериментальні дані, а не дані спостереження. Хоча в економіці вони часто використовують спостережувані «потрясіння» системи для перевірки на причинну причину, наприклад, якщо генеральний директор помирає раптово і ціна акцій зростає, ви можете припустити причинно-наслідкового зв’язку.

  3. Кореляція є необхідною, але недостатньою умовою причинного зв'язку. Щоб виявити причинно-наслідкову зв’язку, потрібно зустріти фактичний факт.


1
Мені подобається перший приклад, який ти наводиш. Це, безумовно, змусить учнів говорити;)
csgillespie

1
Тут є цікава дискусія Стіва Штейнберга в його блозі: blog.steinberg.org/?p=11 про деякі наслідки 1 і куди це може призвести з точки зору слабкого ШІ.
Амос

Може хтось трохи розширить останнє речення?
naught101

4
X(1,1)Y(0,1)Y=1X2XsXY

18

У мене є кілька прикладів, які я люблю використовувати.

  1. Під час розслідування причини злочинів у Нью-Йорку в 80-х, коли вони намагалися прибрати місто, академік виявив сильну кореляцію між кількістю вчинених серйозних злочинів та кількістю проданого морозивом вуличних продавців! (Що є причиною і який є наслідком?) Очевидно, що спостерігалася незмінна змінна, що викликала і те, і інше. Літо - це коли злочин найбільший і коли продається найбільше морозива.

  2. Розмір вашої долоні негативно співвідноситься з тим, як довго ви будете жити (справді!). Насправді жінки, як правило, мають менші долоні і живуть довше.

  3. [Мій улюблений] Я чув кілька досліджень тому, що кількість соди, яку людина випиває, позитивно корелює з ймовірністю ожиріння.(Я сказав собі - це має сенс, оскільки це повинно бути через те, що люди пили цукристу соду і отримували всі ті порожні калорії.) Через кілька днів з’явилося більше деталей. Майже вся кореляція була обумовлена ​​збільшенням споживання дієтичних безалкогольних напоїв. (Це підірвало мою теорію!) Отже, який шлях викликає причину? Чи дієта безалкогольних напоїв призводить до того, що хтось набирає вагу, чи збільшення ваги викликає збільшення споживання в дієтичних безалкогольних напоях? (Перш ніж зробити висновок про останнє, див. Дослідження, де контрольовані експерименти з щурами показали, що група, яку годували йогуртом зі штучним підсолоджувачем, набирала більше ваги, ніж група, яку годували звичайним йогуртом.) Два посилання: Пийте більше дієтичної соди , Набирають більше ваги? ; Дієтні соди, пов’язані з ожирінням. Я думаю, що вони все ще намагаються розібратися в цьому.


4
Останнє трохи складніше, ніж ви його представляєте, але я погоджуюся, що велика частина спостережувальних асоціацій між содою / дієтою содою та ожирінням слід розглядати критично. Теоретично деякі вважають, що підроблені замінники цукру / жиру мають інші фізіологічні ефекти, крім простого споживання калорій. Дивіться, наприклад, цей експеримент з щурами та синтетичними жирами (взято з блогу Freakonomics).
Енді Ш

18

Кількість нобелівських призів, виграних країною (залежно від кількості населення) добре співвідноситься із споживанням шоколаду на душу населення. ( New England Journal of Medicine )

введіть тут опис зображення


2
+1 Я дуже розчарувався в NEJM, коли вони опублікували це
MattBagg

5
Здається, також досить добре співвідноситься із близькістю до Швеції ..
naught101

2
Споживання шоколаду (на душу населення) також суттєво співвідноситься із кількістю серійних вбивць на душу населення. replicatedtypo.com / ...
Харві Мотульський

2
Я запитав трьох нобелівських призерів, яких я (смутно) знаю, і всі троє сказали, що вони з'їли набагато більше шоколаду, ніж більшість їх колег. Звичайно, ці відповіді надійшли після того, як вони прочитали документ NEJM!
Харві Мотульський

4
@MattBagg Це було опубліковане як " Інцидентні записки" і очевидно, що його не слід сприймати серйозно.
Паскаль

12

Хоча це скоріше ілюстрація проблеми численних порівнянь, це також хороший приклад неправильно розподіленої причинно-наслідкової зв'язку:

Регбі (релігія Уельсу) та його вплив на католицьку церкву: чи повинен турбуватися папа Бенедикт XVI?

"кожного разу, коли Уельс виграє гранд-регбі з регбі, Папа Римський помирає, за винятком 1978 року, коли Уельс був справді хорошим, а два папи загинули"


9

Там же два аспекти цієї постфактум ерго propter спеціальної проблеми , які я люблю , щоб покрити: (I) розкривати причинно - наслідковий зв'язок і (б) ендогенні

Приклад "можливої" зворотної причинності: Соціальне пияцтво та заробіток - алкоголіки заробляють більше грошей за версією Bethany L. Peters & Edward Stringham (2006 р. "Без випивки? Ви можете втратити: Чому пияки заробляють більше грошей, ніж неподатливі", Журнал праці Дослідження, видавці транзакцій, т. 27 (3), сторінки 411–421, червень). Або люди, які заробляють більше грошей, більше п’ють або тому, що мають більший наявний дохід, або через стрес? Це чудовий документ, який потрібно обговорити з усіляких причин, включаючи помилку вимірювання, зміщення відповіді, причинність тощо.

Приклад "можливої" ендогенності: рівняння Mincer пояснює прибуток журналу за освітою, досвідом та досвідом у квадраті. На цю тему існує довга література. Економісти праці хочуть оцінити причинно-наслідковий зв’язок освіти із заробітком, але, можливо, освіта є ендогенною, оскільки "здатність" може збільшити обсяг освіти, яку має окрема людина (зменшивши вартість її отримання) і може призвести до збільшення заробітку, незалежно від рівень освіти. Потенційним рішенням цього може бути інструментальна змінна. Книга Ангріста і Пішке, «Найбільш безшкодна економетрія», висвітлює це питання і дуже детально та чітко розглядає теми.

Інші дурні приклади, щодо яких я не маю підтримки, включають: - кількість телевізорів на душу населення та кількість смертності. Тож давайте надсилатимемо телевізори в країни, що розвиваються. Очевидно, що обидва є ендогенними до чогось типу ВВП. - Кількість атак акул та продажів морозива. Обидва є ендогенними до температури, можливо?

Мені також подобається розповідати страшний жарт про лунатика та павука. Лунатик блукає коридорами притулку з павуком, якого він несе в долоні. Він бачить лікаря і каже: "Подивись, Док, я можу поговорити з павуками. Слідкуй за цим." Павук, іди ліворуч! "Павук належним чином рухається вліво. Він продовжує:" Павук, іди направо ". Павук перекидається на справа від його долоні. Лікар відповідає: "Цікаво, можливо, ми повинні про це поговорити на наступній груповій сесії. Лунатичні ретори", це нічого. Док. Слідкуйте за цим. "Він відриває кожну з ніг павука по черзі, а потім кричить:" Павук, ідіть ліворуч! "Павук лежить нерухомо на долоні, і лунатик звертається до лікаря і робить висновок:" Якщо ви витягнете павука ноги він піде глухим ".


8

Найкраще, про що я навчався, - це кількість потопель і продаж морозива, можливо, дуже корелює, але це не означає, що це викликає інше. Утоплення та продаж морозива очевидно вище в літні місяці, коли погода хороша. Третя змінна ака - гарна погода викликає їх.


6

Як узагальнення "пірати викликають глобальне потепління": Виберіть будь-які дві кількості, які (монотонно) збільшуються або зменшуються з часом, і ви повинні побачити деяку кореляцію.


6

Ви можете витратити кілька хвилин на Google Correlate і придумати всілякі хибні кореляції.


1
Хоча це посилання може відповісти на питання, краще включити сюди суттєві частини відповіді та надати посилання для довідки. Відповіді лише на посилання можуть стати недійсними, якщо пов’язана сторінка зміниться.
gung

1
@gung ти серйозно? Посилання - на додаток, а не на просту сторінку, що описує відповідь. Відповідь стане недійсною, якщо пов’язана сторінка все одно зміниться, оскільки інструмент стане недоступним (у поточній формі).
Джером Баум

6

Я працюю зі студентами в навчанні кореляції проти причинно-наслідкового зв'язку в моїх класах «Алгебра один». Ми розглядаємо безліч можливих прикладів. Стаття "Згуртовані діти та небезпечне морозиво: кореляція головоломки" від вчителя математики в лютому 2013 року була корисною. Мені подобається ідея говорити про "ховаючі змінні". Також цей мультфільм є милим початківцем розмов:

введіть тут опис зображення

Ми визначаємо незалежну та залежну змінну у мультфільмі та говоримо про те, чи це приклад причинного зв'язку, якщо ні, чому б ні.


4

Я читав (давно) цікавий приклад про зниження народжуваності (або коефіцієнта народжуваності, якщо ви віддаєте перевагу такому міру), особливо в США, починаючи з початку 1960-х років, оскільки тестування ядерної зброї було постійно високим (в 1961 р. в СРСР була випробувана найбільша ядерна бомба, коли-небудь підірвана). Ціни продовжувались визначатися до кінця ХХ століття, коли більшість населення, нарешті, перестали це робити.

Зараз я не можу знайти посилання, яке поєднує ці цифри, але ця стаття у Вікіпедії містить дані про кількість випробувань ядерної зброї по країнах.

Звичайно, може бути кращим сенсом подивитися на співвідношення народжуваності із введенням та легалізацією протизаплідних таблеток «випадково», починаючи з початку 1960-х. (Спочатку лише у деяких штатах, потім у всіх штатах лише заміжні жінки, потім - у одружених, потім у всій родині), але навіть це може бути лише частиною справи; багато інших аспектів рівності, економічні зміни та інші фактори відіграють значну роль.


Цікавий приклад, адже він, на перший погляд, виглядає як ймовірний причинно-наслідковий зв’язок, на відміну від багатьох найрозумніших прикладів.
Боссікена

1
Мені подобається те, що ви можете викликати багато дискусій про те, чи був "ефект" насправді впливати на фертильність (у медичному розумінні здатності до зачаття) чи був соціальним ("Я не хочу приводити дитину до цього поганого" світ "). Потім киньте бомбочку про таблетку, якщо ніхто інший її не підніс. А потім зазначте, що навіть це може бути лише одним із можливих факторів, і обговоріть деякі інші.
AdamV

4

Кореляція сама по собі ніколи не може встановити причинно-наслідковий зв’язок. Девід Юм (1771-1776) доволі ефективно стверджував, що ми не можемо отримати певні знання про каузальність чисто емпіричними засобами. Кант спробував вирішити це, сторінка Вікіпедії для Канта, схоже, підводить це досить добре:

Кант вважав, що створює компроміс між емпіриками та раціоналістами. Емпірики вважали, що знання набуваються лише завдяки досвіду, але раціоналісти стверджували, що таке знання відкрите для декартових сумнівів, і лише розум забезпечує нас знаннями. Кант, однак, стверджує, що використання розуму без застосування його до досвіду призведе лише до ілюзій, тоді як досвід буде суто суб'єктивним, не спершу піддаючись чистому розуму.

Іншими словами, Юм говорить нам, що ми ніколи не можемо знати, що причинно-наслідковий зв’язок існує лише шляхом спостереження за кореляцією, але Кант припускає, що ми можемо використовувати свій розум для розрізнення кореляцій, які мають на увазі причинно-наслідковий зв’язок від тих, хто цього не робить. Я не думаю, що Юм не погодився б, доки Кант писав з точки зору правдоподібності, а не певних знань.

Коротше кажучи, кореляція забезпечує непрямі докази, що вказують на причинно-наслідковий зв’язок, але вагомість доказів сильно залежить від конкретних обставин, і ми ніколи не можемо бути абсолютно впевненими. Здатність передбачати наслідки втручань - це один із способів здобути впевненість (ми нічого не можемо довести, але можемо спростувати спостережними доказами, тому ми хоча б намагалися підробити теорію причинно-наслідкового зв’язку). Наявність простої моделі, яка пояснює, чому ми повинні спостерігати кореляцію, яка також пояснює інші форми доказів, - це ще один спосіб ми можемо застосувати наше міркування, як пропонує Кант.

Caveat emptor: Цілком можливо, я неправильно зрозумів філософію, однак залишається випадок, що кореляція ніколи не може підтвердити причинно-наслідковий зв’язок.


2
Для того, що це варто, в сучасній термінології я думаю, що слід читати Канта як твердження, наприклад, у Другій аналогії, що які б кореляції ви не спостерігали, існує якийсь причинний графік, що їх породжує. Наскільки мені відомо, у нього не було конкретного методу ідентифікації структури, але він припускав, що вона повинна бути повністю пов'язана (адже "кожна подія має причину"). У цьому сенсі він сучасний: причинний висновок вимагає суміші причинних припущень, наприклад, виражених через графік та дотриманих закономірностей у даних. І ти зазвичай не можеш ні уникати першої частини, ні спонукати її до даних
кон'югатпріор

+1 добре пояснено! Можливо, я занадто баєсівський, але мене не надто турбує думка, що ми не можемо мати певних знань про будь-які причинно-наслідкові зв’язки.
Дікран Марсупіал



3

Кількість сперми у самців у словенських селах та кількість ведмедів (також у Словенії) показують негативну кореляцію. Деякі люди вважають це дуже тривожним. Я спробую отримати дослідження, яке це робило.


3

Я нещодавно був на конференції, і один із спікерів дав цей дуже цікавий приклад (хоча справа в тому, щоб проілюструвати щось інше):

  • Американці та англійці їдять багато жирної їжі. У США та Великобританії високий рівень серцево-судинних захворювань.

  • Французи їдять багато жирної їжі, але у них низька (ер) частота серцево-судинних захворювань.

  • Американці та англійці вживають багато алкоголю. У США та Великобританії високий рівень серцево-судинних захворювань.

  • Італійці п’ють багато алкоголю, але, знову ж таки, у них низький (ер) рівень серцево-судинних захворювань.

Висновок? Їжте і пийте, що хочете. І у вас більше шансів отримати інфаркт, якщо ви говорите англійською!


3
Це також хороший приклад екологічної помилки (тобто, робити висновки про індивідуальний рівень за даними групового рівня).
Джеромі Англім


3

Іншим прикладом кореляції, який я використав, є велике збільшення кількості людей, які вживають органічну їжу, і збільшення кількості дітей з діагнозом аутизм у США. В Інтернеті є графік пародії - графік пародії аутизму органічної їжі


3

http://tylervigen.com/

Це показує тону кореляцій, які, очевидно, не мають нічого спільного з причинним зв’язком - Або ви маєте хороше уявлення, яка причинно-наслідкова зв’язок з епохою Міс Америка співвідноситься із вбивствами парою, гарячими парами та гарячими предметами

??


2

Викладання "Кореляція не означає причинно-наслідкового зв’язку" нікому не допомагає, оскільки наприкінці дня всі дедуктивні аргументи частково базуються на кореляції.

Людям дуже погано вчитися не робити чогось.

Мета має бути скоріше конструктивною: завжди думайте про альтернативи вихідним припущенням, які можуть давати ті самі дані.


1
Це не відповідає на питання: можливо, це слід розуміти як коментар.
whuber

2

Що ж, мій професор використав це у вступному класі ймовірностей:

1) Розмір взуття співвідноситься із здатністю до читання

2) Атака акул корелює з продажем морозива.


2

Чим більше пожежних машин направлено на пожежу, тим більший збиток.


1
Єдина проблема з цим як приклад полягає в тому, що існує чітка зворотна причинно-наслідкова зв’язок.
naught101

1

Я думаю, що кращою парадигмою може бути причинно-наслідковий зв’язок, що вимагає кореляції, пов'язаної з надійним і бажано перевіреним механізмом. Я думаю, що слово, що мається на увазі, слід використовувати в цьому контексті дуже щадно, оскільки воно має декілька значень, включаючи слово навіювання.


1

Приклад лелеки - це на сторінці 8 першого видання (1978 р.) Книги Box, Hunter & Hunter під назвою "Статистика для експериментаторів ..." (Wiley). Я не знаю, чи є це у другому виданні. Вони визначають місто як Ольденбург, а часовий період - 1930-1936 роки.

Вони посилаються на Ornithologische Monatsberichte , 44 , No 2, Jahrgang, 1936, Берлін, і 48 , No 1, Jahrgang, 1940, Берлін, та Statistiches Jahrbuch Deutscher Gemeinden , 27-33, 1932-1938, Gustav Fischer, Jena.


0

Я бачив смішне у статті.

Виробництво вершкового масла в Бангладеш має одну з найвищих співвідношень із показником S&P 500 протягом десяти років.

http://www.forbes.com/sites/davidleinweber/2012/07/24/stupid-data-miner-tricks-quants-fooling-theself-the-economic-indicator-in-your-pants/


2
Так? На графіку показано S&P з часом. У заголовку йдеться про виробництво вершкового масла та сиру, яких не видно на графіку. ???
Харві Мотульський


3
Гаразд, тепер я бачу. Графік показує прогнозування моделі множинної регресії, показуючи, що включення трьох нерозумних змінних виконує досить непогану роботу, щоб змусити модель передбачити зміни SP500 у часі. Це хороший приклад перевиконання при багаторазовій регресії, і побічно показує, що кореляція (або покращена придатність придатної моделі) не передбачає причинного зв'язку.
Харві Мотульський

0

Ось ідеальний. І, на жаль, це може бути використане як чудовий навчальний пункт, оскільки ні співробітники Washington Post, ні Центри контролю та профілактики захворювань не демонструють жодного втілення знань про те, що стаття повинна бути сатиричним твором у цибулі.

https://www.washingtonpost.com/health/trumps-presidency-may-be-making-latinos-sick/2019/07/19/4e89b9f0-a97f-11e9-9214-246e594de5d5_story.html?utm_term=.9dd329c2e837


3
Будь ласка, підсумуйте те, що сказано за посиланням, а не лише те, що ви вважаєте це неправильним.
cbeleites

Вибачте. Але я вважав, що цей пояснює себе.
Марк С.

2
Посилання прекрасне як посилання на джерело, але не слід вважати, що кожен може насправді прочитати його (чи не без особливих клопотів). Будь ласка, майте на увазі: такі посилання дуже сильно підлягають гниттю посилань, і не всі газети обслуговують усі географічні регіони (наприклад, є американські газети, які вирішили, що дотримання GDPR ЄС не варто турбувати і хто, як наслідок, заблокує читачів із IP ЄС адресу).
cbeleites

-2

Хтось сказав, що кореляція може не означати причинно-наслідкового зв’язку, але це, безумовно, може бути гарним підказом :)

Ок, залишаючи осторонь веселу частину, що саме є причинною причиною? Ми справді впевнені, що пірати не спричиняють глобальне потепління?

Контр-інтуїтивно зрозумілий, але що сприймається як причина і що як ефект (у кореляційному дослідженні не так зрозуміло). Звичайно, багато разів обидва можуть бути наслідками загальної причини (і, таким чином, корелювати)

Все це зводиться до методу визначення причинно-наслідкового зв’язку.

Це причина (каламбур) висловлювання:

Є дріб'язкові брехні. Є велика брехня. І є статистика.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.