Інтервали довіри та прогнозування лінійної регресійної моделі


9

Гаразд, тому я намагаюся зрозуміти лінійну регресію. У мене є набір даних, і це виглядає все в порядку, але я розгублений. Це моя лінійна резюме моделі:

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 0.2068621  0.0247002   8.375 4.13e-09 ***
temp        0.0031074  0.0004779   6.502 4.79e-07 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

Residual standard error: 0.04226 on 28 degrees of freedom
Multiple R-squared: 0.6016, Adjusted R-squared: 0.5874 
F-statistic: 42.28 on 1 and 28 DF,  p-value: 4.789e-07 

Отже, p-значення дійсно низьке, а це означає, що кореляцію між x, y просто навряд чи можна отримати. Якщо я побудую його, а потім намалюю лінію регресії, це виглядає приблизно так: http://s14.directupload.net/images/120923/l83eellv.png (Якщо це було як зображення, але я - як новий користувач - наразі немає дозволено розміщувати його) Сині лінії = довірчий інтервал Зелені лінії = інтервал передбачення

Зараз багато питань не потрапляють у довірчий інтервал, чому це станеться? Я думаю, що жодна з даних не потрапляє на лінію регресії b / c, вони знаходяться досить далеко один від одного, але в чому я не впевнений: це справжня проблема? Вони все ще знаходяться навколо лінії регресії, і ви можете повністю побачити схему. Але чи цього достатньо? Я намагаюся це зрозуміти, але я просто продовжую задавати собі одні й ті ж запитання знову і знову.

Що я думав про це поки що: Інтервал довіри говорить про те, що якщо обчислювати CI знову і знову, в 95% разів справжня середня величина потрапляє в ІС. Отже: Це не проблема, що dp не потрапляє в нього, оскільки це не справді засоби. Інтервал прогнозування, з іншого боку, говорить про те, що якщо ви обчислюєте PI знову і знову, в 95% разів справжня VALUE потрапляє в інтервал. Отже, досить важливо, щоб в ній були точки (які у мене є). Тоді я читав, що PI завжди повинен мати ширший діапазон, ніж CI. Чому так? Ось що я зробив:

conf<-predict(fm, interval=c("confidence"))
prd<-predict(fm, interval=c("prediction"))

а потім я склав це за допомогою:

matlines(temp,conf[,c("lwr","upr")], col="red")
matlines(temp,prd[,c("lwr","upr")], col="red")

Тепер, якщо я обчислюю CI і PI для додаткових даних, не має значення, наскільки широкий я вибираю діапазон, я отримую точно такі ж рядки, як і вище. Я не розумію. Що це означає? Тоді це буде:

conf<-predict(fm,newdata=data.frame(x=newx), interval=c("confidence"))
prd<-predict(fm,newdata=data.frame(x=newx), interval=c("prediction"))

для нового x я вибрав різні послідовності. Якщо послідовність має різні спостереження, ніж змінні в моїй регресії, я отримую попередження. Чому це було б?

Відповіді:


3

Я розумію деякі ваші запитання, але інші не зрозумілі. Дозвольте відповісти і констатувати деякі факти, і, можливо, це очистить всю вашу плутанину.

Пристосованість у вас надзвичайно хороша. Інтервали довіри повинні бути дуже жорсткими. Можна розглянути два типи регіонів довіри: bsimultanoues область, яка призначена для покриття всієї функції справжньої регресії із заданим рівнем довіри.

Інші, на які ви дивитесь, - це довірчі інтервали для встановлених регресійних точок. Вони призначені лише для покриття встановленого значення y при заданому значенні коваріату. Вони не призначені для покриття значень y при інших значеннях коваріатів. Насправді, якщо інтервали дуже жорсткі, як вони повинні бути у вашому випадку, вони не покриють багато, якщо будь-яка з точок даних, як ви виходите з фіксованого значення (-ів) коваріату (ів). Для цього типу покриття потрібно отримати одночасні довірчі криві (криві верхньої та нижньої межі).

Тепер вірно, що якщо передбачити ay при заданому значенні коваріату, і ви бажаєте того ж рівня довіри для інтервалу прогнозування, який ви використовували для довірчого інтервалу для y при заданому значенні коваріату, інтервал буде ширшим. Причина полягає в тому, що модель говорить вам про те, що буде додана мінливість, оскільки новий y матиме власну незалежну помилку, яку необхідно враховувати в інтервалі. Цей компонент помилки не входить до оцінок на основі даних, що використовуються у відповідності.


Вибачте, я все ще не зовсім розумію. Ви пояснили два типи інтервалу довіри, але які ви маєте на увазі, коли ви говорите "ті, на кого я дивлюся"? b / c Я склав план передбачення та довірчий інтервал, і у мене виникають проблеми з розумінням різниці. Крім того, я додав декілька R-команд до свого попереднього допису, щоб уточнити, що я роблю
lisa

Криві не дають зрозуміти, отримують чи ні довірчі смуги, будуючи одночасні довірчі криві, або просто роблять плавне з'єднання окремих довірчих інтервалів. Якби вони були одночасними, ви не побачили б стільки встановлених точок поза кривою. Але, як я зазначив, це може статися з окремими інтервалами. Я ще не переглянув редагування, що включає код R.
Майкл Р. Черник

Я не знаю достатньо R, щоб відповісти на конкретні R питання. Що я не знаю, що експерт R може сказати вам, це чи криві довіри та криві прогнозування з'єднують окремі інтервали довіри чи генерують одночасні криві. Також ваш код робить те, що ви маєте намір робити?
Майкл Р. Черник
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.