Я обговорюю це інтуїтивно.
І довірчі інтервали, і інтервали прогнозування в регресії враховують той факт, що перехоплення та нахил невизначені - ви оцінюєте значення за даними, але значення сукупності можуть бути різними (якби ви взяли новий зразок, ви отримали б різні оцінки значення).
Лінія регресії буде проходити через , і найкраще зосередити дискусію щодо змін, що підходять під цю точку - тобто думати про лінію (у цій формулюванні ).( х¯, у¯)у= a + b ( x - x)¯)а^= у¯
Якщо лінія проходила через цю точку, але нахил був трохи вищим або нижчим (тобто якщо висота лінії в середньому була фіксованою, але нахил трохи іншим), що б це виглядає як?( х¯, у¯)
Ви б бачили, що нова лінія буде віддалятися далі від поточної лінії ближче до кінців, ніж біля середини, роблячи своєрідну похилу X, що перетинається в середньому (як кожна фіолетова лінія нижче робиться відносно червоної лінії) ; фіолетові лінії представляють розрахунковий нахил дві стандартні похибки нахилу).±
Якщо ви намалювали колекцію таких ліній із нахилом, який трохи відрізняється від його оцінки, ви побачите розподіл передбачуваних значень біля кінців "вентилятор" (уявіть область між двома фіолетовими лініями, зафарбованими сірим кольором, наприклад, тому що ми знову взяли вибірку і намалювали багато таких схилів біля розрахункового; ми можемо зрозуміти це, завантаживши лінію через точку ( )). Ось приклад використання 2000 повторних зразків з параметричним завантажувальним рядком:х¯, у¯
Якщо замість цього ви враховуєте невизначеність у константі (змушуючи лінію проходити близько, але не зовсім через ), це рухає лінію вгору і вниз, тому інтервали для середнього значення при будь-якому будуть сидіти над і під встановленою лінією.(x¯,y¯)x
(Тут фіолетові лінії є двома стандартними помилками постійного члена з обох сторін оціночної лінії).±
Якщо ви зробите обидва одразу (лінія може бути крихіткою вгору чи вниз, а нахил може бути трохи крутішим або дрібнішим), ви отримаєте деяку кількість розвороту на середньому рівні через невизначеність у Постійний, і ви отримуєте додаткове роздуття через невизначеність схилу, створюючи характерну гіперболічну форму ваших ділянок.x¯
Така інтуїція.
Тепер, якщо вам подобається, ми можемо розглянути трохи алгебри (але це не суттєво):
Це насправді квадратний корінь суми квадратів цих двох ефектів - це можна побачити у формулі довірчого інтервалу. Давайте складемо шматки:
Стандартна помилка з відомим є (пам'ятаєте тут очікуване значення в середньому , а не звичайний відрізок, це просто стандартна помилка в середньому). Це стандартна помилка позиції рядка в середньому ( ).abσ/n−−√ayxx¯
стандартна помилка з відомим є . Ефект невизначеності у схилі на деяке значення множиться на те, наскільки ви віддалені від середнього ( ) (оскільки зміна рівня - це зміна нахилу, відстань від відстані, яку ви рухаєте), даючи .baσ/∑ni=1(xi−x¯)2−−−−−−−−−−−√x∗x∗−x¯(x∗−x¯)⋅σ/∑ni=1(xi−x¯)2−−−−−−−−−−−√
Тепер загальний ефект - це просто квадратний корінь суми квадратів цих двох речей (чому? Тому, що додаються відхилення некорельованих речей, і якщо ви пишете свій рядок у формі , оцінки і є некорельованими. Отже, загальна стандартна помилка - це квадратний корінь загальної дисперсії, а дисперсія - сума дисперсій компонентів - тобто у насy=a+b(x−x¯)ab
(σ/n−−√)2+[(x∗−x¯)⋅σ/∑ni=1(xi−x¯)2−−−−−−−−−−−√]2−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−√
Трохи проста маніпуляція дає звичайний термін для стандартної похибки оцінки середнього значення при :x∗
σ1n+(x∗−x¯)2∑ni=1(xi−x¯)2−−−−−−−−−−−−√
Якщо ви намалюєте це як функцію , ви побачите, що він утворює криву (схожа на посмішку) з мінімальним значенням , що збільшується, коли ви рухаєтесь далі. Це те, що додається / віднімається з пристосованого рядка (ну, їх кратне число, щоб отримати бажаний рівень довіри).ˉ xx∗x¯
[З інтервалами прогнозування також є зміна положення через мінливість процесу; це додає ще один термін, який зміщує межі вгору і вниз, роблячи набагато ширше поширення, і оскільки цей термін зазвичай домінує над сумою під квадратним коренем, кривизна набагато менш виражена.]