Інтервал прогнозу завантаження

Чи існує яка-небудь методика завантаження для обчислення інтервалів прогнозування для прогнозування точок, отриманих, наприклад, від лінійної регресії або іншого методу регресії (k-найближчий сусід, регресійні дерева тощо)?

Я якось відчуваю, що іноді пропонований спосіб просто скористатися точковим прогнозуванням (див., Наприклад, інтервали прогнозування для регресії kNN ) не забезпечує інтервал прогнозування, а довірчий інтервал.

Приклад в R

# STEP 1: GENERATE DATA

set.seed(34345)

n <- 100 
x <- runif(n)
y <- 1 + 0.2*x + rnorm(n)
data <- data.frame(x, y)


# STEP 2: COMPUTE CLASSIC 95%-PREDICTION INTERVAL
fit <- lm(y ~ x)
plot(fit) # not shown but looks fine with respect to all relevant aspects

# Classic prediction interval based on standard error of forecast
predict(fit, list(x = 0.1), interval = "p")
# -0.6588168 3.093755

# Classic confidence interval based on standard error of estimation
predict(fit, list(x = 0.1), interval = "c")
# 0.893388 1.54155


# STEP 3: NOW BY BOOTSTRAP
B <- 1000
pred <- numeric(B)
for (i in 1:B) {
  boot <- sample(n, n, replace = TRUE)
  fit.b <- lm(y ~ x, data = data[boot,])
  pred[i] <- predict(fit.b, list(x = 0.1))
}
quantile(pred, c(0.025, 0.975))
# 0.8699302 1.5399179

Очевидно, що 95% базовий інтервал завантаження відповідає рівню довіри 95%, а не інтервалу прогнозування 95%. Тож моє запитання: як це зробити правильно?

bootstrap prediction-interval

— Михайло М
джерело

Принаймні у випадку звичайних найменших квадратів вам знадобиться більше, ніж просто точкові прогнози; Ви також хочете використовувати оцінену залишкову помилку для побудови інтервалів передбачення.

— Кодіолог

Пов’язано: stats.stackexchange.com/q/44860

@duplo: дякую, що вказали на це. Правильна довжина класичних інтервалів прогнозування безпосередньо покладається на припущення про нормальність терміна помилки, тому, якщо це занадто оптимістично, то, безумовно, також буде завантажена версія, якщо вона походить звідти. Цікаво, чи існує взагалі метод завантаження, який працює в регресії (не обов'язково OLS).

— Майкл М

Я думаю, що \ textit {конформний висновок} може бути тим, що ви хочете, що дозволяє будувати інтервали прогнозування на основі переустановки, які мають дійсне кінцеве вибіркове покриття, і не надто покривають. Є хороший документ, який доступний на веб- сайті arxiv.org/pdf/1604.04173.pdf , який можна прочитати як вступ до теми, та пакет R, який можна знайти на веб-сайті github.com/ryantibs/conformal .

— Саймон Боге Брант

Нижче описаний метод, описаний у розділі 6.3.3 Девідсона та Хінклі (1997), методи Bootstrap та їх застосування . Дякую Glen_b та його коментар тут . Зважаючи на те, що на цю тему було кілька питань щодо перехресної перевірки, я подумав, що варто написати.

\begin{aligned} Y_{i} & = X_{i} β + ϵ_{i} \end{aligned}

$\begin{align} Y_i &= X_i\beta+\epsilon_i \end{align}$

$i=1,2,\ldots,N$ $\beta$

\begin{aligned} {\hat{β}}_{OLS} & = {(X^{'} X)}^{- 1} X^{'} Y \end{aligned}

$\begin{align} \hat{\beta}_{\text{OLS}} &= \left( X'X \right)^{-1}X'Y \end{align}$

$Y$ $X$ $X$ $X_{N+1}$ $Y$ $Y_{N+1}$ $\epsilon_i$ $X$

\begin{aligned} Y_{N + 1}^{p} & = X_{N + 1} {\hat{β}}_{OLS} \end{aligned}

$\begin{align} Y^p_{N+1} &= X_{N+1}\hat{\beta}_{\text{OLS}} \end{align}$

\begin{aligned} e_{N + 1}^{p} & = Y_{N + 1} - Y_{N + 1}^{p} \end{aligned}

$\begin{align} e^p_{N+1} &= Y_{N+1}-Y^p_{N+1} \end{align}$

\begin{aligned} Y_{N + 1} & = Y_{N + 1}^{p} + e_{N + 1}^{p} \end{aligned}

$\begin{align} Y_{N+1} &= Y^p_{N+1} + e^p_{N+1} \end{align}$

$Y^p_{N+1}$ $Y_{N+1}$ $5^{th}$ $95^{th}$ $e^p_{N+1}$ $e^5,e^{95}$ $\left[Y^p_{N+1}+e^5,Y^p_{N+1}+e^{95} \right]$

$e^p_{N+1}$

\begin{aligned} e_{N + 1}^{p} & = Y_{N + 1} - Y_{N + 1}^{p} \\ = X_{N + 1} β + ϵ_{N + 1} - X_{N + 1} {\hat{β}}_{OLS} \\ = X_{N + 1} (β - {\hat{β}}_{OLS}) + ϵ_{N + 1} \end{aligned}

$\begin{align} e^p_{N+1} &= Y_{N+1}-Y^p_{N+1}\\ &= X_{N+1}\beta + \epsilon_{N+1} - X_{N+1}\hat{\beta}_{\text{OLS}}\\ &= X_{N+1}\left( \beta-\hat{\beta}_{\text{OLS}} \right) + \epsilon_{N+1} \end{align}$

$e^p_{N+1}$ $e^p_{N+1}$ $5^{th}$ $95^{th}$ $500^{th}$ $9,500^{th}$

$X_{N+1}\left( \beta-\hat{\beta}_{\text{OLS}} \right)$ $N$ $\epsilon^*_i$ $Y^*_i=X_i\hat{\beta}_{\text{OLS}}+\epsilon^*_i$ $\left(Y^*,X \right)$ $\beta^*_r$ $X_{N+1}\left( \beta-\hat{\beta}_{\text{OLS}} \right)$ $X_{N+1}\left( \hat{\beta}_{\text{OLS}}-\beta^*_r \right)$

$\epsilon$ $\epsilon_{N+1}$ $\left\{ e^*_1,e^*_2,\ldots,e^*_N \right\}$ $\left\{ s_1-\overline{s},s_2-\overline{s},\ldots,s_N-\overline{s} \right\}$ $s_i=e^*_i/\sqrt{(1-h_i)}$ $h_i$ $i$

$Y_{N+1}$ $X$ $X_{N+1}$

$Y^p_{N+1}=X_{N+1}\hat{\beta}_{\text{OLS}}$
$\left\{ s_1-\overline{s},s_2-\overline{s},\ldots,s_N-\overline{s}\right\}$ $s_i=e_i/\sqrt(1-h_{i})$
- $N$ $\left\{\epsilon^*_1,\epsilon^*_2,\ldots,\epsilon^*_N \right\}$
- $Y^*=X\hat{\beta}_{\text{OLS}}+\epsilon^*$
- $\beta^*_r=\left( X'X \right)^{-1}X'Y^*$
- $e^*_r=Y^*-X\beta^*_r$
- $s^*-\overline{s^*}$
- $\epsilon^*_{N+1,r}$
- $e^p_{N+1}$ $e^{p*}_r=X_{N+1}\left( \hat{\beta}_{\text{OLS}}-\beta^*_r \right)+\epsilon^*_{N+1,r}$
$5^{th}$ $95^{th}$ $e^p_{N+1}$ $e^5,e^{95}$
$Y_{N+1}$ $\left[Y^p_{N+1}+e^5,Y^p_{N+1}+e^{95} \right]$

Ось Rкод:

# This script gives an example of the procedure to construct a prediction interval
# for a linear regression model using a bootstrap method.  The method is the one
# described in Section 6.3.3 of Davidson and Hinckley (1997),
# _Bootstrap Methods and Their Application_.


#rm(list=ls())
set.seed(12344321)
library(MASS)
library(Hmisc)

# Generate bivariate regression data
x <- runif(n=100,min=0,max=100)
y <- 1 + x + (rexp(n=100,rate=0.25)-4)

my.reg <- lm(y~x)
summary(my.reg)

# Predict y for x=78:
y.p <- coef(my.reg)["(Intercept)"] + coef(my.reg)["x"]*78
y.p

# Create adjusted residuals
leverage <- influence(my.reg)$hat
my.s.resid <- residuals(my.reg)/sqrt(1-leverage)
my.s.resid <- my.s.resid - mean(my.s.resid)


reg <- my.reg
s <- my.s.resid

the.replication <- function(reg,s,x_Np1=0){
  # Make bootstrap residuals
  ep.star <- sample(s,size=length(reg$residuals),replace=TRUE)

  # Make bootstrap Y
  y.star <- fitted(reg)+ep.star

  # Do bootstrap regression
  x <- model.frame(reg)[,2]
  bs.reg <- lm(y.star~x)

  # Create bootstrapped adjusted residuals
  bs.lev <- influence(bs.reg)$hat
  bs.s   <- residuals(bs.reg)/sqrt(1-bs.lev)
  bs.s   <- bs.s - mean(bs.s)

  # Calculate draw on prediction error
  xb.xb <- coef(my.reg)["(Intercept)"] - coef(bs.reg)["(Intercept)"] 
  xb.xb <- xb.xb + (coef(my.reg)["x"] - coef(bs.reg)["x"])*x_Np1
  return(unname(xb.xb + sample(bs.s,size=1)))
}

# Do bootstrap with 10,000 replications
ep.draws <- replicate(n=10000,the.replication(reg=my.reg,s=my.s.resid,x_Np1=78))

# Create prediction interval
y.p+quantile(ep.draws,probs=c(0.05,0.95))

# prediction interval using normal assumption
predict(my.reg,newdata=data.frame(x=78),interval="prediction",level=0.90)


# Quick and dirty Monte Carlo to see which prediction interval is better
# That is, what are the 5th and 95th percentiles of Y_{N+1}
# 
# To do it properly, I guess we would want to do the whole procedure above
# 10,000 times and then see what percentage of the time each prediction 
# interval covered Y_{N+1}

y.np1 <- 1 + 78 + (rexp(n=10000,rate=0.25)-4)
quantile(y.np1,probs=c(0.05,0.95))

— Білл
джерело

Дякую за корисні, детальні пояснення. Дотримуючись цих ліній, я думаю, що загальна техніка поза OLS (методи на основі дерев, найближчий сусід тощо) не може бути легко доступною, правда?

— Майкл М

Є цей для випадкових лісів: stats.stackexchange.com/questions/49750/…, який звучить схоже.

— Білл

X β

$X\beta$

f (X, θ)

$f(X, \theta)$

Як ви узагальнюєте "залишки, скориговані на дисперсію" - підхід OLS спирається на важелі - чи існує розрахунок важеля для довільного оцінювача f (X)?

— Девід Уотерворт