Прогнози на 1 крок вперед із пакетом dynlm R


11

Я підходив до моделі з декількома незалежними змінними, одна з яких - відставання залежної змінної, використовуючи пакет dynlm.

Якщо припустити, що я маю прогнози на 1 крок вперед для моїх незалежних змінних, як я можу отримати прогнози на 1 крок вперед для моїх залежних змінних?

Ось приклад:

library(dynlm)

y<-arima.sim(model=list(ar=c(.9)),n=10) #Create AR(1) dependant variable
A<-rnorm(10) #Create independant variables
B<-rnorm(10)
C<-rnorm(10)
y<-y+.5*A+.2*B-.3*C #Add relationship to independant variables 
data=cbind(y,A,B,C)

#Fit linear model
model<-dynlm(y~A+B+C+L(y,1),data=data)

#Forecast
A<-c(A,rnorm(1)) #Assume we already have 1-step forecasts for A,B,C
B<-c(B,rnorm(1))
C<-c(C,rnorm(1))
y=window(y,end=end(y)+c(1,0),extend=TRUE)
newdata<-cbind(y,A,B,C)
predict(model,newdata)

І ось приклад використання пакету dyn, який працює.

library(dyn)

#Fit linear model
model<-dyn$lm(y~A+B+C+lag(y,-1),data=data)

#Forecast
predict(model,newdata)the dyn packages, which works:

Використання лише dynlmпакету не дасть прогнозів для залежних змінних. Для надання прогнозів для залежних змінних потрібна модель для їх пояснення та, ймовірно, додаткових даних. Я пропоную вам прочитати щось про багатоваріантну регресію, наприклад, "Прикладний багатоваріантний статистичний аналіз" Джонсона та Вічерн. або курс з прогнозування: duke.edu/~rnau/411home.htm
deps_stats

1
@deps_stats Залежна змінна - це те, що я хочу прогнозувати. Я припускаю, що у мене вже є прогнози щодо моїх незалежних змінних. У моєму прикладі коду y - залежна змінна, яку я намагаюся прогнозувати, а A, B, C - незалежні змінні, для яких я вже маю прогнози. Якщо ви запустите приклад коду, який я опублікував, ви зрозумієте суть моєї проблеми.
Зак

@Zach: рейтинг Nice Kaggle! (Я натиснув посилання у вашому профілі миші)
Х'ю Перкінс

Відповіді:


13

Вітаємо, ви знайшли помилку. Прогноз для dynlmнових даних порушується, якщо використовуються відсталі змінні. Щоб зрозуміти, чому дивіться на вихід

predict(model)
predict(model,newdata=data)

Результати повинні бути однаковими, але вони не є. Без newdataаргументу predictфункція в основному захоплює modelелемент з dynlmвиводу. З newdataаргументом predictнамагається сформувати нову модель матрицю з newdata. Оскільки це включає формулу розбору, що подається, dynlmі формула має функцію L, яка визначена лише внутрішньо у функції dynlm, формується матрична неправильна модель. Якщо ви спробуєте налагодити помилку, ви побачите, що залежна змінна величина не відстає у випадку подання newdataаргументу.

Що ви можете зробити - це відставати залежну змінну і включати її в newdata. Ось код, що ілюструє такий підхід. Я використовую set.seedтак, що це було б легко відтворюваним.

library(dynlm)

set.seed(1)
y<-arima.sim(model=list(ar=c(.9)),n=10) #Create AR(1) dependant variable
A<-rnorm(10) #Create independant variables
B<-rnorm(10)
C<-rnorm(10)
y<-y+.5*A+.2*B-.3*C #Add relationship to independant variables 
data=cbind(y,A,B,C)

#Fit linear model
model<-dynlm(y~A+B+C+L(y,1),data=data)

Ось помилка поведінки:

> predict(model)
       2        3        4        5        6        7        8        9       10 
3.500667 2.411196 2.627915 2.813815 2.468595 1.733852 2.114553 1.423225 1.470738 
> predict(model,newdata=data)
        1         2         3         4         5         6         7         8         9        10 
2.1628335 3.7063579 2.9781417 2.1374301 3.2582376 1.9534558 1.3670995 2.4547626 0.8448223 1.8762437 

Формуйте newdata

#Forecast fix.
A<-c(A,rnorm(1)) #Assume we already have 1-step forecasts for A,B,C
B<-c(B,rnorm(1))
C<-c(C,rnorm(1))

newdata<-ts(cbind(A,B,C),start=start(y),freq=frequency(y))

newdata<-cbind(lag(y,-1),newdata)
colnames(newdata) <- c("y","A","B","C")

Порівняйте прогноз із підходом до моделі:

> predict(model)
       2        3        4        5        6        7        8        9       10 
3.500667 2.411196 2.627915 2.813815 2.468595 1.733852 2.114553 1.423225 1.470738 
> predict(model,newdata=newdata)
       1        2        3        4        5        6        7        8        9       10       11 
      NA 3.500667 2.411196 2.627915 2.813815 2.468595 1.733852 2.114553 1.423225 1.470738 1.102367 

Як видно з історичних даних, прогноз збігається, і останній елемент містить прогноз на 1 крок вперед.


Як можна впоратися із випадком, коли у вас є два відставання в одній формулі? lag(y,-1)+lag(y,-2)?
Х'ю Перкінс

1
Ну, тоді це рішення не працює. Потрібно написати власну функцію передбачення.
mpiktas

Ага, саме це я і зробив насправді :-P
Х'ю Перкінс

1
Ви розглядали можливість подати його авторам dynlm? Це химерна ситуація, яку ви не можете передбачити, використовуючи dynlm.
mpiktas

Гммм, ви кажете, що вони не збираються магічно відстежувати stackoverflow та виправляти помилки? Я думаю, це, мабуть, правда!
Х'ю Перкінс

2

Після прохання @ md-azimul-haque я переглянув свій 4-річний вихідний код і знайшов наступну відповідну функцію. Не знаєте, чи шукає це @ md-azimul-haque?

# pass in training data, test data,
# it will step through one by one
# need to give dependent var name, so that it can make this into a timeseries
predictDyn <- function( model, train, test, dependentvarname ) {
    Ntrain <- nrow(train)
    Ntest <- nrow(test)
    # can't rbind ts's apparently, so convert to numeric first
    train[,dependentvarname] <- as.numeric(train[,dependentvarname])
    test[,dependentvarname] <- NA
    testtraindata <- rbind( train, test )
    testtraindata[,dependentvarname] <- ts( as.numeric( testtraindata[,dependentvarname] ) )
    for( i in 1:Ntest ) {
       cat("predicting i",i,"of",Ntest,"\n")
       result <- predict(model,newdata=testtraindata,subset=1:(Ntrain+i-1))
       testtraindata[Ntrain+i,dependentvarname] <- result[Ntrain + i + 1 - start(result)][1]
    }
    testtraindata <- testtraindata[(Ntrain+1):(Ntrain + Ntest),dependentvarname]
    names(testtraindata) <- 1:Ntest
    return( testtraindata )
}
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.