Форма довірчого інтервалу для прогнозованих значень при лінійній регресії

69

Я помітив, що довірчий інтервал для прогнозованих значень в лінійній регресії має тенденцію бути вузьким навколо середнього значення прогноктора і жиру навколо мінімальних і максимальних значень прогноктора. Це можна побачити на графіках цих 4 лінійних регресій:

введіть тут опис зображення

Я спочатку думав, що це тому, що більшість значень предикторів були сконцентровані навколо середнього значення прогноктора. Однак я зауважив, що вузька середина довірчого інтервалу буде мати місце, навіть якщо велика кількість значень сконцентрована навколо крайностей прогноктора, як у нижній лівій лінійній регресії, у якій багато значень предиктора зосереджені навколо мінімуму провісник

хтось може пояснити, чому довірчі інтервали для прогнозованих значень у лінійній регресії мають тенденцію бути вузькими посередині та жирними в крайніх межах?

— лучано
джерело

86

Я обговорюю це інтуїтивно.

І довірчі інтервали, і інтервали прогнозування в регресії враховують той факт, що перехоплення та нахил невизначені - ви оцінюєте значення за даними, але значення сукупності можуть бути різними (якби ви взяли новий зразок, ви отримали б різні оцінки значення).

Лінія регресії буде проходити через , і найкраще зосередити дискусію щодо змін, що підходять під цю точку - тобто думати про лінію (у цій формулюванні ). $(\bar x, \bar y)$ $y= a + b(x-\bar x)$ $\hat a = \bar y$

Якщо лінія проходила через цю точку, але нахил був трохи вищим або нижчим (тобто якщо висота лінії в середньому була фіксованою, але нахил трохи іншим), що б це виглядає як? $(\bar x, \bar y)$

Ви б бачили, що нова лінія буде віддалятися далі від поточної лінії ближче до кінців, ніж біля середини, роблячи своєрідну похилу X, що перетинається в середньому (як кожна фіолетова лінія нижче робиться відносно червоної лінії) ; фіолетові лінії представляють розрахунковий нахил дві стандартні похибки нахилу). $\pm$

введіть тут опис зображення

Якщо ви намалювали колекцію таких ліній із нахилом, який трохи відрізняється від його оцінки, ви побачите розподіл передбачуваних значень біля кінців "вентилятор" (уявіть область між двома фіолетовими лініями, зафарбованими сірим кольором, наприклад, тому що ми знову взяли вибірку і намалювали багато таких схилів біля розрахункового; ми можемо зрозуміти це, завантаживши лінію через точку ( )). Ось приклад використання 2000 повторних зразків з параметричним завантажувальним рядком: $\bar{x},\bar{y}$

Якщо замість цього ви враховуєте невизначеність у константі (змушуючи лінію проходити близько, але не зовсім через ), це рухає лінію вгору і вниз, тому інтервали для середнього значення при будь-якому будуть сидіти над і під встановленою лінією. $(\bar x, \bar y)$ $x$

введіть тут опис зображення

(Тут фіолетові лінії є двома стандартними помилками постійного члена з обох сторін оціночної лінії). $\pm$

Якщо ви зробите обидва одразу (лінія може бути крихіткою вгору чи вниз, а нахил може бути трохи крутішим або дрібнішим), ви отримаєте деяку кількість розвороту на середньому рівні через невизначеність у Постійний, і ви отримуєте додаткове роздуття через невизначеність схилу, створюючи характерну гіперболічну форму ваших ділянок. $\bar x$

Така інтуїція.

Тепер, якщо вам подобається, ми можемо розглянути трохи алгебри (але це не суттєво):

Це насправді квадратний корінь суми квадратів цих двох ефектів - це можна побачити у формулі довірчого інтервалу. Давайте складемо шматки:

Стандартна помилка з відомим є (пам'ятаєте тут очікуване значення в середньому , а не звичайний відрізок, це просто стандартна помилка в середньому). Це стандартна помилка позиції рядка в середньому ( ). $a$ $b$ $\sigma /\sqrt{n}$ $a$ $y$ $x$ $\bar x$

стандартна помилка з відомим є . Ефект невизначеності у схилі на деяке значення множиться на те, наскільки ви віддалені від середнього ( ) (оскільки зміна рівня - це зміна нахилу, відстань від відстані, яку ви рухаєте), даючи . $b$ $a$ $\sigma/\sqrt{\sum_{i=1}^n (x_i-\bar{x})^2}$ $x^*$ $x^*-\bar x$ $(x^*-\bar x)\cdot\sigma/\sqrt{\sum_{i=1}^n (x_i-\bar{x})^2}$

Тепер загальний ефект - це просто квадратний корінь суми квадратів цих двох речей (чому? Тому, що додаються відхилення некорельованих речей, і якщо ви пишете свій рядок у формі , оцінки і є некорельованими. Отже, загальна стандартна помилка - це квадратний корінь загальної дисперсії, а дисперсія - сума дисперсій компонентів - тобто у нас $y= a + b(x-\bar x)$ $a$ $b$

$\sqrt{(\sigma /\sqrt{n})^2+ \left[(x^*-\bar x)\cdot\sigma/\sqrt{\sum_{i=1}^n (x_i-\bar{x})^2}\right]^2 }$

Трохи проста маніпуляція дає звичайний термін для стандартної похибки оцінки середнього значення при : $x^*$

$\sigma\sqrt{\frac{1}{n}+ \frac{(x^*-\bar x)^2}{\sum_{i=1}^n (x_i-\bar{x})^2} }$

Якщо ви намалюєте це як функцію , ви побачите, що він утворює криву (схожа на посмішку) з мінімальним значенням , що збільшується, коли ви рухаєтесь далі. Це те, що додається / віднімається з пристосованого рядка (ну, їх кратне число, щоб отримати бажаний рівень довіри). $x^*$ $\bar x$

[З інтервалами прогнозування також є зміна положення через мінливість процесу; це додає ще один термін, який зміщує межі вгору і вниз, роблячи набагато ширше поширення, і оскільки цей термін зазвичай домінує над сумою під квадратним коренем, кривизна набагато менш виражена.]

— Glen_b
джерело

Дякую Glen_b, що дуже інтуїтивно зрозуміло. Мені не спадало на думку, саме на це складається інтервал довіри.

— luciano

1

Прийнята відповідь справді дає необхідну інтуїцію. Лише не вистачає візуалізації поєднання як лінійних, так і кутових невизначеностей, що дуже добре відноситься до сюжетів у питанні. Отож ось це йде. Давайте назвемо a'і b'невизначеності aта b, відповідно, кількості, які зазвичай повертаються будь-яким популярним статистичним пакетом. Тоді ми маємо, окрім найкращої форми a*x + b, намалювати чотири можливі лінії (у цьому випадку 1 коваріат х):

(a+a')*x + b+b'
(a-a')*x + b-b'
(a+a')*x + b-b'
(a-a')*x + b+b'

Це чотири кольорові лінії на графіку нижче. Чорна товста лінія посередині являє собою найкращу підгонку без невизначеностей. Отже, щоб намалювати «гіперболічні» відтінки, слід взяти максимальні та мінімальні значення цих чотирьох ліній, що поєднуються, які насправді є чотирма відрізками ліній, кривих там немає (мені цікаво, наскільки чітко ці ділянки вигадок малюють криву, не здається будь-який точний для мене).

Я сподіваюся, що це щось додає до вже приємної відповіді від @Glen_b.

— ouranos
джерело