Проста версія полягає в тому, що будь-які дві змінні, які мають тенденцію змінюватися в одному напрямку з плином часу, виявляться корельованими, незалежно від того, існує зв’язок між ними чи ні. Розглянемо такі змінні:
set.seed(1)
time = seq(from=1, to=100, by=1)
x = .5 + .3*time + rnorm(100)
y1 = 3 + .3*time + rnorm(100)
y2 = 7 + .1*time + .8*x + rnorm(100)
y 1 y 2 x x y 2 x y 1х - це лише функція часу, як і . - функція як часу, так і . Сенс полягає в тому, щоб визначити з коду, що насправді існує зв'язок між і , і що між і немає зв'язку . А тепер подивіться на наступний малюнок, всі три рядки виглядають жахливо схожими, чи не так?у1у2хху2ху1
Насправді значення для співвідношення між і становить 98%, а для і - 99%. Але ми знаємо, що між і немає реальної залежності , тоді як існує між і x y 1 R 2 x y 2 x y 1 x y 2R2ху1R2ху2ху1xy2, то як же ми відрізняємо реальне від простого вигляду? Ось де відбувається розмежування. Для будь-яких двох змінних, оскільки вони мають тенденцію до зростання з часом, це не дуже інформативно, але враховуючи, що одна збільшується на деяку кількість, чи це говорить нам, на скільки збільшиться інша? Диференціація дозволяє нам відповісти на це питання. Зверніть увагу на наступні дві фігури, розроблені мною, після розрізнення всіх трьох змінних.
Тут ми чітко бачимо, що знаючи щось про те, наскільки піднявся вгору, нам щось говорить про те, на скільки йде вгору ( ), але це не так для і ( ). Отже, відповідь на ваше запитання полягає в тому, що ви повинні ігнорувати кореляції між своїми оригінальними змінними та дивитись на змінні змінні. З огляду на те, що ваш є .004, я б сказав, що фактичних стосунків немає. y 2 R 2 = .43 x y 1 R 2 = .07 R 2xy2R2=.43xy1R2=.07R2
Деякі інші моменти: На малюнках я зазначаю, що це одночасні зміни. У цьому немає нічого поганого, і це випливає з того, як я поставив проблему, але зазвичай люди зацікавлені в ефектах з деяким відставанням. (Тобто, зміна однієї речі в один момент часу призводить до зміни в чомусь іншому пізніше.) По-друге, ви згадуєте взяти журнал однієї із своїх серій. Взявши журнал, просто перемикає ваші дані з рівнів на ставки. Таким чином, коли ви відрізняєтесь, ви дивитесь на зміни ставок, а не на зміни рівнів. Це дуже часто, але я не включив цей елемент у свою демонстрацію; це ортогонально питанням, про які я обговорював. Нарешті, я хочу визнати, що дані часових рядів часто складніші, ніж мої демонстрації.