Розуміння форми та обчислення смуг довіри в лінійній регресії


33

Я намагаюся зрозуміти походження вигнутої форми довірчих смуг, пов'язаних з лінійною регресією OLS, і як це стосується довірчих інтервалів параметрів регресії (нахилу та перехоплення), наприклад (за допомогою R):

require(visreg)
fit <- lm(Ozone ~ Solar.R,data=airquality)
visreg(fit)

введіть тут опис зображення

Виявляється, смуга пов'язана з межами ліній, обчислених з перехопленням 2,5% та нахилом 97,5%, а також з перехопленням 97,5% та нахилом 2,5% (хоча і не зовсім):

xnew <- seq(0,400)
int <- confint(fit)
lines(xnew, (int[1,2]+int[2,1]*xnew))
lines(xnew, (int[1,1]+int[2,2]*xnew))

введіть тут опис зображення

Я не розумію, це дві речі:

  1. Що з комбінацією 2,5% нахилу та 2,5% перехоплення, а також 97,5% нахилу та 97,5% перехоплення? Вони дають лінії, які чітко знаходяться поза смугою, накресленою вище. Можливо, я не розумію значення інтервалу довіри, але якщо в 95% випадків мої оцінки знаходяться в довірчому інтервалі, це здається можливим результатом?
  2. Що визначає мінімальну відстань між верхньою та нижньою межею (тобто близькою до точки, де перехрещуються два рядки, додані вище)?

Я думаю, що обидва питання виникають, тому що я не знаю / не розумію, як насправді обчислюються ці смуги.

Як я можу обчислити верхню та нижню межі, використовуючи довірчі інтервали параметрів регресії (не покладаючись на прогноз () або подібну функцію, тобто вручну)? Я намагався розшифрувати функцію predict.lm в R, але кодування поза мною. Буду вдячний за будь-які вказівки щодо відповідної літератури чи пояснень, підходящих для початківців статистики.

Спасибі.


4
Ви маєте дві хороші відповіді нижче. Якщо ви хочете отримати більше інформації, можливо, вам допоможе прочитати мою відповідь тут: Інтервал прогнозування лінійної регресії , який стосується інтервалів прогнозування, але ідея дуже схожа.
gung - Відновіть Моніку


ТА за корисні відповіді та відмінні посилання.
Девід

Відповіді:


19

XsY^X

sY^X=sY|X1n+(XX¯)2i=1n(XiX¯)2

сY|Х

сY|Х=i=1н(Yi-Y^)2н-2

Y^±тν=н-2,α/2сY^

YХ

β^α^


1
Чи є підручник, який пояснює, звідки беруться ці формули?
Майкл Ґерц

1
@MichaelGoerz Будь-яка вступна статистика, біостатистика, економетрика та ін. Підручник, який охоплює звичайні лінійні регресії найменших квадратів.
Олексій

Я маю Вассермана - всю статистику, Джеймса та ін. - Вступ до статистичного навчання та Хасті та ін. - Елементи статистичного навчання. Я не зміг знайти рівняння для ліній довіри регресії в жодному з них. Чи є у вас номер глави / екв. Для будь-якої з цих книг чи іншої широкодоступної книги?
Майкл Ґерц

2
Жодна із згаданих вами книг не є видами книг, про які Алексіс обговорює. У книзі Фокса про прикладну регресію є її, якщо я правильно згадую.
Glen_b -Встановіть Моніку

1
@MichaelGoerz Як і Пагано, М. та Говрео, К. (2000). Принципи біостатистики . Duxbury Press, Pacific Grove, Каліфорнія, 2-е видання та Glantz, SA (2011). буквар біостатистики . McGraw-Hill Medical, Нью-Йорк, Нью-Йорк, 7-е видання, хоча вони не є регресійними текстами.
Олексій

16

Приємне запитання. Важливо зрозуміти ці поняття, і вони не є простими.

y¯y¯y¯

Коли ми комбінуємо всі довірчі інтервали, для кожного можливого х це дає нам сірі смуги, які ви бачите у висновку.

Це функціонально означає, що ми на 95% впевнені, що справжня лінія регресії лежить десь у цій сірій зоні.

Оскільки смуги довіри обчислюються з використанням 95% довірчих інтервалів для кожної окремої точки, це дуже тісно пов'язане з 95% CI для перехоплення. Насправді, при x = 0 краї сірої зони точно збігатимуться з 95% CI для перехоплення, оскільки саме так ми створили смуги довіри. Ось чому лінії, які ви додали вище, потрапляють на край сірої смуги вліво.

Однак схил трохи інший. Це дійсно сприяє встановленню меж, як ви бачили вище, але нахил та перехоплення не можна розділити за лінійною регресією. Отже, ви не можете сказати "добре що, якщо перехоплення було мінімальним за діапазон CI, а нахил також був мінімальним?" Цей рядок генерує точки, які знаходяться далеко за межами наших 95% ІС протягом багатьох х. Це означає, що ми на 95% впевнені, що це не наша справжня лінія регресії.

x¯sy^x(xx¯)x=x¯

Тут є гідний Powerpoint, який може допомогти вам уявити деякі з цих речей: http://www.stat.duke.edu/~tjl13/s101/slides/unit6lec3H.pdf


2
Думаю, я це виправив - замінив яхати на ярби. Це правильніше? Я завжди викручую це.
Дункан

Та. Одне, що мені залишається незрозумілим, - це зробити наступні два твердження послідовними: "Це функціонально означає, що ми на 95% впевнені, що справжня лінія регресії лежить десь у цій сірій зоні". vs "[...] довірчі інтервали щодо перехоплення та нахилу - це ще інші величини." Якщо перше твердження правильне, повинно бути якесь (математичне?) Співвідношення між CI перехоплення та нахилу та діаграмою, накресленою вище? Я думаю, це стосується частини мого запитання: Як я можу обчислити (якщо можливо) смугу вище за допомогою КІ нахилу та перехоплення?
Девід

1
x¯

Приємний зрозумілий пост та приємне посилання! +1
церестеколог
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.