Звичайна регресія проти регресії, коли змінні різняться


13

Я просто намагаюся зрозуміти, який взаємозв'язок між нормальною множинною / простою регресією проти множинною / простою регресією, коли змінні різняться.

Наприклад, я аналізую взаємозв'язок між залишком депозиту ( ) та ринковими ставками ( R_T ) Якщо я веду просту лінійну регресію, кореляція є негативною та досить значною (близько -74) Однак, якщо я беру журнал і різниця залежної змінної та різниця незалежної змінної, тому моє рівняння тепер d \, \ ln (Y_T) регресує з d \, R (T) , мої кореляції та R ^ 2 взагалі не суттєві ( R ^ 2 = .004 ).R T dYTRTddln(YT)R 2 = .004dR(T)R2=.004

Мені було просто цікаво, чи означає цей низький щось таке? Чи означає це, що моя модель не підходить, або я ігнорую коли я дивлюсь на різнисті дані? Я знаю, що за даними існує суттєва кореляція між першими двома змінними, але для моєї моделі мені потрібно розглянути змінні, що відрізняються, тому просто цікаво, як це зробити.R 2R2R2

Відповіді:


16

Проста версія полягає в тому, що будь-які дві змінні, які мають тенденцію змінюватися в одному напрямку з плином часу, виявляться корельованими, незалежно від того, існує зв’язок між ними чи ні. Розглянемо такі змінні:

set.seed(1)
time = seq(from=1, to=100, by=1)
x  = .5 + .3*time +        rnorm(100)
y1 =  3 + .3*time +        rnorm(100)
y2 =  7 + .1*time + .8*x + rnorm(100)

y 1 y 2 x x y 2 x y 1x - це лише функція часу, як і . - функція як часу, так і . Сенс полягає в тому, щоб визначити з коду, що насправді існує зв'язок між і , і що між і немає зв'язку . А тепер подивіться на наступний малюнок, всі три рядки виглядають жахливо схожими, чи не так?y1y2xxy2xy1

введіть тут опис зображення

Насправді значення для співвідношення між і становить 98%, а для і - 99%. Але ми знаємо, що між і немає реальної залежності , тоді як існує між і x y 1 R 2 x y 2 x y 1 x y 2R2xy1R2xy2xy1xy2, то як же ми відрізняємо реальне від простого вигляду? Ось де відбувається розмежування. Для будь-яких двох змінних, оскільки вони мають тенденцію до зростання з часом, це не дуже інформативно, але враховуючи, що одна збільшується на деяку кількість, чи це говорить нам, на скільки збільшиться інша? Диференціація дозволяє нам відповісти на це питання. Зверніть увагу на наступні дві фігури, розроблені мною, після розрізнення всіх трьох змінних.

введіть тут опис зображення

введіть тут опис зображення

Тут ми чітко бачимо, що знаючи щось про те, наскільки піднявся вгору, нам щось говорить про те, на скільки йде вгору ( ), але це не так для і ( ). Отже, відповідь на ваше запитання полягає в тому, що ви повинні ігнорувати кореляції між своїми оригінальними змінними та дивитись на змінні змінні. З огляду на те, що ваш є .004, я б сказав, що фактичних стосунків немає. y 2 R 2 = .43 x y 1 R 2 = .07 R 2xy2R2=.43xy1R2=.07R2

Деякі інші моменти: На малюнках я зазначаю, що це одночасні зміни. У цьому немає нічого поганого, і це випливає з того, як я поставив проблему, але зазвичай люди зацікавлені в ефектах з деяким відставанням. (Тобто, зміна однієї речі в один момент часу призводить до зміни в чомусь іншому пізніше.) По-друге, ви згадуєте взяти журнал однієї із своїх серій. Взявши журнал, просто перемикає ваші дані з рівнів на ставки. Таким чином, коли ви відрізняєтесь, ви дивитесь на зміни ставок, а не на зміни рівнів. Це дуже часто, але я не включив цей елемент у свою демонстрацію; це ортогонально питанням, про які я обговорював. Нарешті, я хочу визнати, що дані часових рядів часто складніші, ніж мої демонстрації.


10

@gung пропонує хорошу відповідь, але я хочу запропонувати кілька застережень до того, що ви пропонуєте.

Диференціація в основному використовується для боротьби з проблемою одиничних коренів, наприклад, коли процес AR (1) з коефіцієнтом кореляції 1. Диференціацію можна ефективно використовувати для видалення лінійної тенденції часу, коли термін помилки - білий шум (у зокрема, він не виявляє послідовних кореляцій), як показує @gung вище. Але, якщо термін помилки має послідовну кореляцію з коефіцієнтом кореляції меншим за 1 в абсолютній величині, використовуючи диференціювання для видалення лінійної тенденції часу, виникають помилки з дуже складною структурою. Важко отримати точні стандартні помилки і зробити дійсні умовиводи в цьому випадку.

Як результат, найкраще спершу протестувати корінь одиниці та, якщо її виявлено, виправити це за допомогою диференціювання. Далі перевірте лінійну тенденцію часу. Вирішіть цю проблему шляхом викриття. Не роблячи останнього, ви можете відкрити проблему типу пропущених змінних, яку @gung чудово ілюструє.


1
+1 Це приємне доповнення до моєї відповіді. Я намагався зробити свою відповідь простою та інтуїтивно зрозумілою. Однак, безумовно, правда, що є більше складностей, ніж я обговорював, і що вони можуть бути дуже важливими. Я мав би це визнати у своєму останньому абзаці. Дякуємо, що тримаєте мене чесно.
gung - Відновіть Моніку

1

Коли мета полягає у формуванні / ідентифікації зв’язку між двома або більше серіями, можливо, знадобиться фільтрувати стаціонарну змінну X, щоб перетворити її на шум. Це двоступеневий процес, необхідне розмежування та структура ARMA. Для збереження об'єктивності та уникнення зміщення специфікації моделі не слід вважати фільтр, а скоріше конструювати цей фільтр, використовуючи автокореляційний характер стаціонарного ряду X. Тоді береться серія Y і застосовує всі необхідні оператори розрізнення, щоб зробити його нерухомим, а потім застосувати раніше розроблений фільтр до стаціонарного Y. Ця процедура має одну і єдину мету, а це визначити взаємозв'язок між Y і X. Ніколи не слід переходити до висновків про необхідні оператори розрізнення, фільтр ARMA та взаємозв'язок між змінними, якщо хтось не є економетриком, який знає модель до того, як вони спостерігатимуть дані, або якщо ви звертаєтесь безпосередньо до всемогутнього. Ретельний аналіз щодо нормальності вимоги про помилки необхідний, щоб вірити будь-якому статистичному тесту, який може бути обчислений. Розрахунок тестів F / T необхідний, але недостатній. Підводячи підсумок, я пропоную вам перейти до теми "Як визначити модель функції передачі". Інші та я неодноразово зверталися до цього питання. Якщо ви хочете, ви можете ознайомитись з деякими відповідями на питання, до яких доданий тег "часовий ряд". Як сказав Йогі, "Ви можете багато спостерігати, просто читаючи / дивлячись". Іноді приємні та прості відповіді можуть звести вас з глузду, а потенційно надскладні / консервативні відповіді, такі як моя, можуть вимагати від вас кращого розуміння моделювання даних часових рядів. Як колись було сказано "Тото, ми вже не в Канзасі (тобто дані поперечного перерізу)!"

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.