Інтервал прогнозування лінійної регресії


24

Якщо найкращим лінійним наближенням (з використанням найменших квадратів) моїх точок даних є лінія y=mx+b , то як я можу обчислити похибку наближення? Якщо я обчислюю стандартне відхилення відмінностей між спостереженнями та прогнозами , чи можу я пізніше сказати, що до інтервалу належить реальне (але не спостережуване) значення ( ) з вірогідністю ~ 68%, припускаючи нормальний розподіл?y r = r e a l ( x 0 ) [ y p - σ , y p + σ ] y p = m x 0 + bei=real(xi)(mxi+b)yr=real(x0)[ypσ,yp+σ]yp=mx0+b

Для уточнення:

Я зробив спостереження стосовно функції , оцінивши її в деяких точках . Я поміщаю ці спостереження до прямої . Для якого я не спостерігав, я хотів би знати, наскільки великим може бути . Використовуючи вищенаведений метод, чи правильно сказати, що з задачею. ~ 68%?f(x)xil(x)=mx+bx0f(x0)l(x0)f(x0)[l(x0)σ,l(x0)+σ]


1
Я думаю, ви запитуєте про інтервали прогнозування. Однак зауважте, що ви використовуєте " ", а не " y i ". Це друкарня? Ми не прогнозуємо x s. xiyix
gung - Відновити Моніку

@gung: Я позначаю щоб позначити, наприклад, час, а y значення деякої змінної на той час, тому y = f ( x ) означає, що я зробив спостереження y в момент x . Хочу знати, наскільки можуть бути прогнози функції підгонки від реальних значень y. Чи має це сенс? Функція r e a l ( x i ) повертає "правильне" значення y при x i , а мої точки даних складаються з ( x i , r e a lxyy=f(x)yxreal(xi)yxi . (xi,real(xi))
bmx

1
Це здається абсолютно розумним. Частини, на які я зосереджуюсь увагу, наприклад, " ", зазвичай ми вважаємо помилки / залишки в моделі reg як " e i = y i - ( m x i + b ) ". SD із залишків робить грати певну роль в обчисленні інтервалів прогнозування. Це те, що « x iei=real(xi)(mxi+b)ei=yi(mxi+b)xi"це дивно для мене; мені цікаво, чи це друкарня, чи ти запитуєш про щось, чого я не впізнаю.
gung - Відновити Моніку

Я думаю, що бачу; Я пропустив вашу редакцію. Це говорить про те, що система ідеально детермінована, і якби у вас був доступ до реальної основної функції, ви завжди могли б передбачити без помилки. Це не так, як ми зазвичай думаємо про моделі reg. yi
gung - Відновіть Моніку

4
bmx, Мені здається, ви маєте чітке уявлення про своє запитання та гарне усвідомлення деяких питань. Можливо, вам буде цікаво переглянути три тісно пов’язані теми. stats.stackexchange.com/questions/17773 описує інтервали прогнозування в нетехнічних умовах; stats.stackexchange.com/questions/26702 дає більш математичний опис; та в statts.stackexchange.com/questions/9131 Роб Хандман надає формулу, яку ви шукаєте. Якщо вони не відповідають повністю на ваше запитання, принаймні вони можуть дати вам стандартні позначення та словниковий запас для їх уточнення.
whuber

Відповіді:


30

@whuber вказав на три хороших відповіді, але, можливо, я все-таки можу написати щось цінне. Як я розумію, ваше чітке запитання:

З огляду на мою підібрана y^i=m^xi+b^ (повідомлення я додав «капелюхи») , і припускаючи , що мої залишки нормально розподілений, , можна передбачити , що ще непомітний відповідь, у п е ш , з відомим значенням провісника, х п х ш , буде падати в межах інтервалу ( у - σ е , у + σN(0,σ^e2)ynewxnew з вірогідністю 68%?(y^σe,y^+σe)

Інтуїтивно відповідь здається, що він повинен бути «так», але правдива відповідь - можливо . Це буде той випадок, коли параметри (тобто & σ ) відомі і без помилок. Оскільки ви оцінили ці параметри, нам потрібно врахувати їх невизначеність. m,b,σ

Давайте спочатку подумаємо про стандартне відхилення ваших залишків. Оскільки це оцінюється за вашими даними, може бути помилка в оцінці. Як результат, розподіл, який слід використовувати для формування інтервалу передбачення, повинен бути , а не звичайною. Однак, оскільки t швидко переходить до нормального, на практиці це є меншою ймовірністю. tdf errort

Таким чином, ми можемо використовувати тільки у нового ± т ( 1 - α / 2 , ДФ помилки ) s , замість у нового ± г ( 1 - α / 2 ) S , і йти про наш веселому шляху? На жаль, немає. Велика проблема в тому , що існує невизначеність в відношенні вашої оцінки умовного середнього відгуку в цьому місці з - за невизначеності в ваші оцінки т і б . Таким чином,у^нові±т(1-α/2, df помилка)сy^new±z(1α/2)sm^b^стандартне відхилення ваших прогнозів повинно включати більше помилок serror . З - за відхилення додати , оцінена дисперсія передбачень буде: Зверніть увагу , що « х » є індексуються для подання значення , специфічного для нового спостереження, і що " s 2 " відповідно підписане. Тобто, ваш інтервал передбачення залежить від місця розташування нового спостереження вздовж x

spredictions(new)2=serror2+Var(m^xnew+b^)
xs2x
spredictions(new)=serror2(1+1N+(xnewx¯)2(xix¯)2)
As an interesting side note, we can infer a few facts about prediction intervals from this equation. First, prediction intervals will be narrower the more data we had when we built the prediction model (this is because there's less uncertainty in m^ & b^). Second, predictions will be most precise if they are made at the mean of the x values you used to develop your model, as the numerator for the third term will be 0. The reason is that under normal circumstances, there is no uncertainty about the estimated slope at the mean of x, only some uncertainty about the true vertical position of the regression line. Thus, some lessons to be learned for building prediction models are: that more data is helpful, not with finding 'significance', but with improving the precision of future predictions; and that you should center your data collection efforts on the interval where you will need to be making predictions in the future (to minimize that numerator), but spread the observations as widely from that center as you can (to maximize that denominator).

Having calculated the correct value in this manner, we can then use it with the appropriate t distribution as noted above.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.