Як перевірити автокореляцію залишків?


23

У мене є матриця з двома стовпцями, які мають багато цін (750). На зображенні нижче я накреслив залишки наступної лінійної регресії:

lm(prices[,1] ~ prices[,2])

Дивлячись на зображення, здається, дуже сильна автокореляція залишків.

Однак як я можу перевірити, чи є автокореляція цих залишків сильною? Який метод я повинен використовувати?

Залишки лінійної регресії

Дякую!


8
Не потрібно тестувати на автокореляцію. Саме там. Сюжет показує, що. Ви можете подивитися на функцію автокореляції цих залишків (функція acf()), але це просто підтвердить те, що можна побачити простим оком: кореляції між відсталими залишками дуже високі.
Вольфганг

@ Вольфганг, так, правильно, але я мушу це перевірити програмно .. Я перегляну функцію ACF. Спасибі!
Dail

@Wolfgang, я бачу acf (), але я не бачу такого р-значення, щоб зрозуміти, чи є сильна кореляція чи ні. Як інтерпретувати його результат? Дякую
Dail

З H0: кореляція (r) = 0, то r слід за нормальним / t розворотом із середнім 0 та дисперсією sqrt (кількість спостережень). Таким чином, ви можете отримати 95% довірчий інтервал, використовуючи +/-qt(0.75, numberofobs)/sqrt(numberofobs)
Jim

@Jim Варіант кореляції не . Також не є стандартним відхиленням . Але в ній є . n nnn
Glen_b -Встановіть Моніку

Відповіді:


17

Можливо, існує багато способів зробити це, але перший, який приходить на думку, заснований на лінійній регресії. Ви можете регресувати послідовні залишки один проти одного і перевірити наявність значного нахилу. Якщо існує автокореляція, то між послідовними залишками має бути лінійна залежність. Щоб закінчити написаний вами код, ви можете зробити:

mod = lm(prices[,1] ~ prices[,2])
res = mod$res 
n = length(res) 
mod2 = lm(res[-n] ~ res[-1]) 
summary(mod2)

mod2 - лінійна регресія похибки часу проти помилки часу . якщо коефіцієнт res [-1] є значущим, у вас є докази автокореляції в залишках.ε t t - 1 ε t - 1tεtt1εt1

Примітка. Це неявно передбачає, що залишки є автогресивними в тому сенсі, що важливий лише при прогнозуванні . Насправді можуть існувати залежності більшої дальності. У цьому випадку цей метод, який я описав, слід тлумачити як однозахисне авторегресивне наближення до справжньої структури автокореляції в . ε t εεt1εtε


велике дякую за приклад. Лише одне сумнів: Як я можу перевірити, чи res [-1] є значущим?
Dail

ви перевірите це так само, як і будь-який інший коефіцієнт регресії - подивіться на -statistic та -значеннярtp
Макрос

роблячи швидкий тест з: lm (rnorm (1000) ~ тремтіння (1: 1000)) Я отримую: Залишкова стандартна помилка: 1,006 на 997 градусах свободи Кілька R-квадратів: 0,0003463, скоригований R-квадрат: -0,0006564 F-статистика : 0,3454 на 1 та 997 DF, p-значення: 0,5569 p-значення не може відкинути нульову гіпотезу
Dail

Макрос, я перевірив залишки діаграми, яку я накреслив вище, і результат: Залишкова стандартна помилка: 0,04514 на 747 градусах свободи Кілька R-квадратів: 0,9241, Зрегульований R-квадрат: 0,924 F-статистика: 9093 на 1 і 747 DF, значення p: <2.2e-16, це не дуже добре, це дуже дивно, тому що є сильна автокореляція, що я можу зробити?
Dail

3
Це називається тестом Бреуза-Годфрі на автокореляцію.
Чарлі

16

Скористайтеся тестом Дурбіна-Уотсона , реалізованим у пакеті lmtest .

dwtest(prices[,1] ~ prices[,2])

дуже дивно я отримую: p-значення <2.2e-16, як це можливо? дані здаються дуже співвіднесеними!
Dail

4
Значення р, ймовірно, отримує стільки ж кореляційних, скільки і спостережуваних, якщо немає реальної кореляції. Отже, якщо р дуже малий, як це є, це говорить про те, що у вибірці існує велика кількість кореляцій.
Роб Хайндман

Ви маєте на увазі таке значення p, яке вказує на те, що залишки дуже автокорельовані?
Dail

хм дивно, подивіться на: imageshack.us/f/59/17671620.png як можливо, що правильне зображення не автокорельовано?
Dail

: dail Здається, що ліве зображення має структурні зміни в дисперсії (див. статтю Ruey Tsay "Витрати, зсув рівня та зміни варіацій у часових рядах", Journal of Forecast, VOl 7, 1-20 (1988) для деталей) що в даному випадку не «плутає» DW, можливо, через те, що весь розподіл все ще є нормальним, тоді як правильне зображення має деякі візуально очевидні (і емпірично ідентифіковані) аномалії (Імпульси), що створюють ненормальні (лептокуртотичні див. wikopedia: Розподіл при позитивному надлишку куртозу називають лептокуртичне) розповсюдження, яке спричиняє хаос із DW
IrishStat

11

Тест на DW або тест лінійної регресії не є надійними для аномалій даних. Якщо у вас є імпульси, сезонні імпульси, зміна рівня або місцеві тенденції часу, ці тести марні, оскільки ці необроблені компоненти збільшують дисперсію помилок, таким чином, зменшуючи зменшення тестів, що призводять до того, що ви (як ви з'ясували) неправильно прийняти нульову гіпотезу "ні" автокореляція. Перед тим, як ці два тести чи будь-який інший параметричний тест, про який я знаю, може бути використаний, треба "довести", що середнє значення залишків не є статистично суттєво відмінним від 0,0 КОЖНО, інакше основні припущення недійсні. Добре відомо, що одним із обмежень тесту DW є його припущення про те, що помилки регресії зазвичай розподіляються. Зауважте, як правило, серед розповсюджених засобів: Без аномалій (дивhttp://homepage.newschool.edu/~canjels/permdw12.pdf ). Додатково тест DW лише тест на автоматичну кореляцію відставання 1. Ваші дані можуть мати тижневий / сезонний ефект, і це буде недіагностовано і, крім того, не оброблене, зменшить тест DW на зменшення.


які тести тестування на те, що залишки значно відрізняються від нуля? Якщо регресія включає перехоплення, то залишкове середнє значення алгебраїчно дорівнює нулю, тому мені цікаво, як можна обійти цю проблему.
mpiktas

: mpkitas Як ви говорили, коли ви включаєте константу, середнє значення помилок гарантовано становить 0,0, але це не гарантує, що середнє значення помилок є нульовим скрізь. Наприклад, якщо серія має зміну середнього значення, загальна середня величина буде постійною, але дасть два "скупчення" залишків, кожна з яких має інше значення. Ви можете ознайомитися зі статтею Рюї Цей "Витрати, зміни рівня та зміни змін у часових рядах", Journal of Forecasting, VOl 7, 1-20 (1988) для деталей. АБО факультет.chicagobooth.edu/
ruey.tsay/teaching/uts/lec10-08.pdf

1
Це лише стандартне припущення "без опущених змінних", яке мається на увазі в регресійному аналізі.
Чарлі
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.