Гаразд, тому я намагаюся зрозуміти лінійну регресію. У мене є набір даних, і це виглядає все в порядку, але я розгублений. Це моя лінійна резюме моделі:
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.2068621 0.0247002 8.375 4.13e-09 ***
temp 0.0031074 0.0004779 6.502 4.79e-07 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.04226 on 28 degrees of freedom
Multiple R-squared: 0.6016, Adjusted R-squared: 0.5874
F-statistic: 42.28 on 1 and 28 DF, p-value: 4.789e-07
Отже, p-значення дійсно низьке, а це означає, що кореляцію між x, y просто навряд чи можна отримати. Якщо я побудую його, а потім намалюю лінію регресії, це виглядає приблизно так: http://s14.directupload.net/images/120923/l83eellv.png (Якщо це було як зображення, але я - як новий користувач - наразі немає дозволено розміщувати його) Сині лінії = довірчий інтервал Зелені лінії = інтервал передбачення
Зараз багато питань не потрапляють у довірчий інтервал, чому це станеться? Я думаю, що жодна з даних не потрапляє на лінію регресії b / c, вони знаходяться досить далеко один від одного, але в чому я не впевнений: це справжня проблема? Вони все ще знаходяться навколо лінії регресії, і ви можете повністю побачити схему. Але чи цього достатньо? Я намагаюся це зрозуміти, але я просто продовжую задавати собі одні й ті ж запитання знову і знову.
Що я думав про це поки що: Інтервал довіри говорить про те, що якщо обчислювати CI знову і знову, в 95% разів справжня середня величина потрапляє в ІС. Отже: Це не проблема, що dp не потрапляє в нього, оскільки це не справді засоби. Інтервал прогнозування, з іншого боку, говорить про те, що якщо ви обчислюєте PI знову і знову, в 95% разів справжня VALUE потрапляє в інтервал. Отже, досить важливо, щоб в ній були точки (які у мене є). Тоді я читав, що PI завжди повинен мати ширший діапазон, ніж CI. Чому так? Ось що я зробив:
conf<-predict(fm, interval=c("confidence"))
prd<-predict(fm, interval=c("prediction"))
а потім я склав це за допомогою:
matlines(temp,conf[,c("lwr","upr")], col="red")
matlines(temp,prd[,c("lwr","upr")], col="red")
Тепер, якщо я обчислюю CI і PI для додаткових даних, не має значення, наскільки широкий я вибираю діапазон, я отримую точно такі ж рядки, як і вище. Я не розумію. Що це означає? Тоді це буде:
conf<-predict(fm,newdata=data.frame(x=newx), interval=c("confidence"))
prd<-predict(fm,newdata=data.frame(x=newx), interval=c("prediction"))
для нового x я вибрав різні послідовності. Якщо послідовність має різні спостереження, ніж змінні в моїй регресії, я отримую попередження. Чому це було б?