Як ви знаходите причинно-наслідкові зв’язки в даних?


11

Скажімо, у мене є таблиця зі стовпцями "А", "В"

Чи є статистичний метод, щоб визначити, чи "A" спричиняє "B"? Не можна реально використовувати R Pearson, оскільки:

  • він лише перевіряє співвідношення значень
  • кореляція не є причиною
  • P Пірсона може співвідносити лише лінійні відносини

То які ще варіанти я маю тут?


1
Немає. З таких даних можна продемонструвати високий ступінь кореляції; ви не можете продемонструвати причинно-наслідкову ситуацію.


1
Причинно-наслідковий зв’язок - це не те, що ти можеш витіснити з чисел ... тож, повтори за мною: причинно-наслідкова зв’язок - не кореляція , причинно-наслідкова зв’язок - не кореляція ...
JM не є статистиком

1
Дивіться "Причинність" Юдеї Перл (лауреат премії Тьюрінга 2011 року).

Відповіді:


4

На сьогодні відповіді та коментарі в основному правильні на практичному рівні, але для повноти існує дослідження так званих моделей причинності, які базуються на байєсівській статистиці та теорії графіків. Тож хоча взагалі кореляція насправді не передбачає причинно-наслідкових зв’язків, існують і більш складні моделі, які намагаються вилучити причинно-наслідкову зв’язку. Детальніше дивіться у книжці Причинності Джудеї Перл, але це дуже важка математика і, мабуть, не те, що ви хочете.


2

Існує безліч так званих квазіекспериментальних методів, за допомогою яких можна достовірно сперечатися щодо причинності, навіть якщо ваші дані спостережуються. Зазвичай ці методи залежать від пошуку джерела екзогенних змін у вашій змінній, що цікавить.

Я думаю, що хороший та доступний огляд подано у книзі "Здебільшого нешкідливі економетрики". Вони охоплюють в основному всі квазіекспериментальні методи, в які люди (маючи на увазі: економісти) вірять (принаймні іноді). Вони не охоплюють методів, згаданих, наприклад, trb456 (з тієї ж причини: мало хто в них вірить).


1

Для визначення причинно-наслідкового зв’язку потрібно провести тест на рандомізацію. Ви берете тестів і випадково вибираєте половину з них, щоб мати якість А, а половину - не мати. Потім ви бачите, чи є статистично значуща різниця в якості B між двома групами.

Важливо, щоб ви зробили рандомізацію, перш ніж проводити будь-яке вимірювання. Зокрема, якщо вам надано набір даних ізA і B вже виміряно, то визначити причинно-наслідкову ситуацію неможливо.

Зауважте, що зробити тест на рандомізацію, який ви хочете зробити, може бути неможливо. Наприклад, як ви могли перевірити, якщо високий змушує вас важити більше? Зрозуміло, існує співвідношення між зростом і вагою, але ви не можете випадково віднести одну групу людей до «високої» групи, а одну до «короткої». У цьому випадку тест на рандомізацію неможливо зробити.


0

D Сомерса працює для пояснення взаємозв'язку між порядковими змінними таким чином, що коефіцієнт кореляції Пірсона робить для наборів даних.


1
Я погоджуюсь, що для встановлення причинного зв’язку потрібно більше числа. Як використання порядкових змінних входить у питання?
Майкл Р. Черник

1
@MichaelChernick Somers 'D - це асиметрична міра асоціації. Він може розрізняти "якщо йде дощ, то хмарно", від "якщо хмарно, то йде дощ." Це працює для порядкових або вищих даних. Це не встановлює причинно-наслідкових зв’язків, але встановлює спрямованість.
Дейв Харріс
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.