Інтервали довіри та прогнозування лінійної регресійної моделі

Гаразд, тому я намагаюся зрозуміти лінійну регресію. У мене є набір даних, і це виглядає все в порядку, але я розгублений. Це моя лінійна резюме моделі:

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 0.2068621  0.0247002   8.375 4.13e-09 ***
temp        0.0031074  0.0004779   6.502 4.79e-07 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.04226 on 28 degrees of freedom
Multiple R-squared: 0.6016, Adjusted R-squared: 0.5874 
F-statistic: 42.28 on 1 and 28 DF,  p-value: 4.789e-07

Отже, p-значення дійсно низьке, а це означає, що кореляцію між x, y просто навряд чи можна отримати. Якщо я побудую його, а потім намалюю лінію регресії, це виглядає приблизно так: http://s14.directupload.net/images/120923/l83eellv.png (Якщо це було як зображення, але я - як новий користувач - наразі немає дозволено розміщувати його) Сині лінії = довірчий інтервал Зелені лінії = інтервал передбачення

Зараз багато питань не потрапляють у довірчий інтервал, чому це станеться? Я думаю, що жодна з даних не потрапляє на лінію регресії b / c, вони знаходяться досить далеко один від одного, але в чому я не впевнений: це справжня проблема? Вони все ще знаходяться навколо лінії регресії, і ви можете повністю побачити схему. Але чи цього достатньо? Я намагаюся це зрозуміти, але я просто продовжую задавати собі одні й ті ж запитання знову і знову.

Що я думав про це поки що: Інтервал довіри говорить про те, що якщо обчислювати CI знову і знову, в 95% разів справжня середня величина потрапляє в ІС. Отже: Це не проблема, що dp не потрапляє в нього, оскільки це не справді засоби. Інтервал прогнозування, з іншого боку, говорить про те, що якщо ви обчислюєте PI знову і знову, в 95% разів справжня VALUE потрапляє в інтервал. Отже, досить важливо, щоб в ній були точки (які у мене є). Тоді я читав, що PI завжди повинен мати ширший діапазон, ніж CI. Чому так? Ось що я зробив:

conf<-predict(fm, interval=c("confidence"))
prd<-predict(fm, interval=c("prediction"))

а потім я склав це за допомогою:

matlines(temp,conf[,c("lwr","upr")], col="red")
matlines(temp,prd[,c("lwr","upr")], col="red")

Тепер, якщо я обчислюю CI і PI для додаткових даних, не має значення, наскільки широкий я вибираю діапазон, я отримую точно такі ж рядки, як і вище. Я не розумію. Що це означає? Тоді це буде:

conf<-predict(fm,newdata=data.frame(x=newx), interval=c("confidence"))
prd<-predict(fm,newdata=data.frame(x=newx), interval=c("prediction"))

для нового x я вибрав різні послідовності. Якщо послідовність має різні спостереження, ніж змінні в моїй регресії, я отримую попередження. Чому це було б?

r regression

— Ліза
джерело

Я розумію деякі ваші запитання, але інші не зрозумілі. Дозвольте відповісти і констатувати деякі факти, і, можливо, це очистить всю вашу плутанину.

Пристосованість у вас надзвичайно хороша. Інтервали довіри повинні бути дуже жорсткими. Можна розглянути два типи регіонів довіри: bsimultanoues область, яка призначена для покриття всієї функції справжньої регресії із заданим рівнем довіри.

Інші, на які ви дивитесь, - це довірчі інтервали для встановлених регресійних точок. Вони призначені лише для покриття встановленого значення y при заданому значенні коваріату. Вони не призначені для покриття значень y при інших значеннях коваріатів. Насправді, якщо інтервали дуже жорсткі, як вони повинні бути у вашому випадку, вони не покриють багато, якщо будь-яка з точок даних, як ви виходите з фіксованого значення (-ів) коваріату (ів). Для цього типу покриття потрібно отримати одночасні довірчі криві (криві верхньої та нижньої межі).

Тепер вірно, що якщо передбачити ay при заданому значенні коваріату, і ви бажаєте того ж рівня довіри для інтервалу прогнозування, який ви використовували для довірчого інтервалу для y при заданому значенні коваріату, інтервал буде ширшим. Причина полягає в тому, що модель говорить вам про те, що буде додана мінливість, оскільки новий y матиме власну незалежну помилку, яку необхідно враховувати в інтервалі. Цей компонент помилки не входить до оцінок на основі даних, що використовуються у відповідності.

— Майкл Р. Черник
джерело

Вибачте, я все ще не зовсім розумію. Ви пояснили два типи інтервалу довіри, але які ви маєте на увазі, коли ви говорите "ті, на кого я дивлюся"? b / c Я склав план передбачення та довірчий інтервал, і у мене виникають проблеми з розумінням різниці. Крім того, я додав декілька R-команд до свого попереднього допису, щоб уточнити, що я роблю

— lisa

Криві не дають зрозуміти, отримують чи ні довірчі смуги, будуючи одночасні довірчі криві, або просто роблять плавне з'єднання окремих довірчих інтервалів. Якби вони були одночасними, ви не побачили б стільки встановлених точок поза кривою. Але, як я зазначив, це може статися з окремими інтервалами. Я ще не переглянув редагування, що включає код R.

— Майкл Р. Черник

Я не знаю достатньо R, щоб відповісти на конкретні R питання. Що я не знаю, що експерт R може сказати вам, це чи криві довіри та криві прогнозування з'єднують окремі інтервали довіри чи генерують одночасні криві. Також ваш код робить те, що ви маєте намір робити?

— Майкл Р. Черник