У мене є часовий ряд, який я намагаюся прогнозувати, для якого я використав сезонну модель ARIMA (0,0,0) (0,1,0) [12] (= fit2). Він відрізняється від того, що R запропонувало з auto.arima (R, розраховане ARIMA (0,1,1) (0,1,0) [12], було б краще, я назвав це придатним1). Однак, за останні 12 місяців моєї часової серії моя модель (fit2) здається, що вона краще підходить, коли вона коригується (вона була хронічно упередженою, я додав залишкове середнє значення, і нове пристосування, здається, сильніше тримається навколо початкового часового ряду Ось приклад останніх 12 місяців та MAPE за 12 останніх місяців для обох підходів:
Часовий ряд виглядає приблизно так:
Все йде нормально. Я провів залишковий аналіз для обох моделей, і ось плутанина.
ACF (залишається (fit1)) виглядає чудово, дуже білошумно:
Однак тест Ljung-Box не виглядає добре, наприклад, на 20 відстань:
Box.test(resid(fit1),type="Ljung",lag=20,fitdf=1)
Я отримую такі результати:
X-squared = 26.8511, df = 19, p-value = 0.1082
На моє розуміння, це підтвердження того, що залишки не є незалежними (значення p занадто велике, щоб залишатися з гіпотезою незалежності).
Однак для відставання 1 все чудово:
Box.test(resid(fit1),type="Ljung",lag=1,fitdf=1)
дає мені результат:
X-squared = 0.3512, df = 0, p-value < 2.2e-16
Або я не розумію тесту, або це трохи суперечить тому, що я бачу на сюжеті ACF. Автокореляція смішно низька.
Потім я перевірив fit2. Функція автокореляції виглядає приблизно так:
Незважаючи на таку очевидну автокореляцію при кількох перших відставаннях, тест Ljung-Box дав мені набагато кращі результати при 20 відставаннях, ніж fit1:
Box.test(resid(fit2),type="Ljung",lag=20,fitdf=0)
призводить до :
X-squared = 147.4062, df = 20, p-value < 2.2e-16
тоді як саме перевірка автокореляції в lag1 також дає мені підтвердження нульової гіпотези!
Box.test(resid(arima2.fit),type="Ljung",lag=1,fitdf=0)
X-squared = 30.8958, df = 1, p-value = 2.723e-08
Я правильно розумію тест? Значення р має бути переважно меншим за 0,05, щоб підтвердити нульову гіпотезу незалежності залишків. Яку підгонку краще використовувати для прогнозування, fit1 чи fit2?
Додаткова інформація: залишки fit1 відображають нормальний розподіл, а ті, які є у fit2, не мають.
X-squared
) збільшується, коли вибіркові автокореляції залишків збільшуються (див. Його визначення), а його p-значення - це ймовірність отримання значення, такого ж, як і більше, ніж те, яке спостерігається під нулем гіпотеза про те, що справжні нововведення незалежні. Тому невелике значення р свідчить проти незалежності.
fitdf
), тому ви протестували на розподіл chi-квадрата з нульовим ступенем свободи.