Різниця між довірчими інтервалами та інтервалами прогнозування

80

Для інтервалу прогнозування в лінійній регресії ви все ще використовуєте для створення інтервалу. Ви також використовуєте це для створення довірчого інтервалу . Яка різниця між ними? $\hat{E}[Y|x] = \hat{\beta_0}+\hat{\beta}_{1}x$ $E[Y|x_0]$

— питання
джерело

7

\hat{E} [Y | x] = \hat{β_{0}} + {\hat{β}}_{1} x

$\hat{E}[Y|x] = \hat{\beta_0}+\hat{\beta}_{1}x$ не "генерує інтервал".

— Glen_b

Я не бачу причин для розбіжності між двома методами в жодній із відповідей вище. Результати регресії, як правило, оцінюються на основі параметричних параметрів розподілу Стьюдента, і зазвичай регресія, особливо від погано узгоджених з регресійними моделями даних, призводить до залишків, які не вивчені, наприклад, перекошених, але особливо з важкими хвостами, як правило (якщо не завжди) параметричні міри розповсюдження даних більше, ніж їх відповідні очікувані вимірювані кванти. Я вважаю корисним правило: Якщо я бачу залишки із залишком, довгими хвостами та u

— Карл

Пов'язане: Отримання формули меж прогнозування у лінійній моделі .

— Scortchi

75

Ваше запитання не зовсім правильне. Інтервал довіри дає діапазон для , як ви кажете. Інтервал прогнозування дає діапазон для самого . Звичайно, найкраща здогадка для - , тому обидва інтервали будуть зосереджені навколо одного і того ж значення, . $\text{E}[y \mid x]$ $y$ $y$ $\text{E}[y \mid x]$ $x\hat{\beta}$

Як говорить @Greg, стандартні помилки будуть різними --- ми припускаємо, що очікуване значення точніше, ніж ми оцінюємо . Для оцінки потрібно включати дисперсію, що походить від істинного терміна помилки. $\text{E}[y \mid x]$ $y$ $y$

Щоб проілюструвати різницю, уявіть, що ми могли б отримати ідеальні оцінки наших коефіцієнтів. Тоді наша оцінка була б ідеальною. Але ми до сих пір не були б упевнені , що самого було тому , що є істинний термін помилки , які ми повинні розглянути. Наш інтервал впевненості був би просто пунктом, тому що ми оцінюємо абсолютно правильно, але наш інтервал прогнозування буде ширшим, оскільки ми враховуємо справжній термін помилки. $\beta$ $\text{E}[y \mid x]$ $y$ $\text{E}[y \mid x]$

Отже, інтервал прогнозування буде ширшим, ніж довірчий інтервал.

— Чарлі
джерело

40

Різниця між інтервалом прогнозування та довірчим інтервалом - це стандартна помилка.

Стандартна помилка для довірчого інтервалу на середньому враховує невизначеність внаслідок вибірки. Рядок, який ви обчислили у вашому зразку, буде відрізнятися від лінії, яка була б обчислена, якби у вас було все населення, стандартна помилка враховує цю невизначеність.

Стандартна помилка для інтервалу прогнозування для окремого спостереження враховує невизначеність, обумовлену вибіркою, як вище, але також враховує мінливість індивідів навколо прогнозованої середньої величини. Стандартна помилка для інтервалу прогнозування буде ширшою, ніж для довірчого інтервалу, а значить, інтервал прогнозування буде ширшим, ніж довірчий інтервал.

— Грег Сніг
джерело

39

Я знайшов таке пояснення корисним:

Інтервали довіри говорять про те, наскільки добре ви визначили середнє значення. Припустимо, що дані насправді вибираються випадковим чином із розподілу Гаусса. Якщо ви робите це багато разів і обчислюєте довірчий інтервал середнього значення для кожного зразка, ви очікуєте, що приблизно 95% цих інтервалів включатимуть справжнє значення середньої сукупності. Ключовим моментом є те, що інтервал довіри повідомляє вам про ймовірне розташування справжнього параметра сукупності.

Інтервали прогнозування вказують, де ви можете очікувати побачення наступної вибіркової точки. Припустимо, що дані насправді вибираються випадковим чином із розподілу Гаусса. Зберіть вибірку даних та обчисліть інтервал прогнозування. Потім виберіть ще одне значення у населення. Якщо ви робите це багато разів, ви очікуєте, що наступне значення буде лежати в межах цього інтервалу передбачення у 95% зразків. Ключовим моментом є те, що інтервал прогнозування говорить вам про розподіл значень, а не про невизначеність у визначенні сукупності маю на увазі.

Інтервали прогнозування повинні враховувати як невизначеність у значенні значення середньої сукупності, так і розсіювання даних. Тож інтервал прогнозування завжди ширший, ніж довірчий інтервал.

Джерело: http://www.graphpad.com/support/faqid/1506/

— фондж
джерело

Що до біса мається на увазі під "розкиданням даних" тут?

— тел

2

@tel: Очевидно, дисперсія

— vonjd

36

Один - це передбачення майбутнього спостереження, а другий - передбачувана середня реакція. Я дам більш детальну відповідь, щоб сподіватися пояснити різницю і звідки вона походить, а також як ця різниця проявляється в більш широких інтервалах для прогнозування, ніж для впевненості.

Цей приклад може ілюструвати різницю між інтервалами довіри та прогнозування: припустимо, у нас є регресійна модель, яка передбачає ціну будинків виходячи з кількості спалень, розміру тощо. Ми можемо зробити два види прогнозів для даного : $x_0$

Ми можемо передбачити ціну конкретного нового будинку, який вийде на ринок з характеристиками ( "яка прогнозована ціна на цей будинок ?" ). Його справжня ціна буде . Оскільки , передбачувана ціна буде Оцінюючи дисперсію цього прогнозу, нам потрібно включити нашу невизначеність щодо , а також наша невизначеність щодо нашого прогнозування (помилка нашого передбачення) і тому повинна включати дисперсію (помилка нашого прогнозування). Зазвичай це називається передбаченням майбутнього значення . $x_0$ $x_0$
$y = x_{0}^{T} β + ϵ$ $y = x_0^T\beta+\epsilon$ $E(\epsilon)=0$ $\hat{y} = x_{0}^{T} \hat{β}$ $\hat{y} = x_0^T\hat{\beta}$ $\hat{\beta}$ $\epsilon$
Можна також передбачити середню ціну будинку з характеристиками ( "яка була б середня ціна на будинок з характеристиками ?" ). Оцінка балів все ще , але тепер потрібно враховувати лише дисперсію в . Зазвичай це називається прогнозуванням середньої відповіді. $x_0$ $x_0$
$\hat{y} = x_{0}^{T} \hat{β}$ $\hat{y} = x_0^T\hat{\beta}$ $\hat{\beta}$

У більшості випадків, що ми дійсно хочемо, це перший випадок. Ми знаємо, що

v a r (x_{0}^{T} \hat{β}) = x_{0}^{T} (X^{T} X)^{- 1} x_{0} σ^{2}

$var(x_0^T\hat{\beta}) = x_0^T(X^TX)^{-1}x_0\sigma^2$

Це відхилення для нашої середньої відповіді (випадок 2). Але для прогнозування майбутнього спостереження (випадок 1) згадайте, що нам потрібна дисперсія ; має дисперсію і вважається, що вона не залежить від . Використовуючи просту алгебру, це призводить до наступних інтервалів довіри: $x_0^T\hat{\beta} + \epsilon$ $\epsilon$ $\sigma^2$ $\hat{\beta}$

CI для єдиної майбутньої відповіді для : $x_0$
${\hat{y}}_{0} \pm t_{n - p}^{(α / 2)} \hat{σ} \sqrt{x_{0}^{T} (X^{T} X)^{- 1} x_{0} + 1}$ $\hat{y}_0\pm t_{n-p}^{(\alpha/2)}\hat{\sigma}\sqrt{x_0^T(X^TX)^{-1}x_0 + 1}$
CI для середньої відповіді, заданої : $x_0$
${\hat{y}}_{0} \pm t_{n - p}^{(α / 2)} \hat{σ} \sqrt{x_{0}^{T} (X^{T} X)^{- 1} x_{0}}$ $\hat{y}_0\pm t_{n-p}^{(\alpha/2)}\hat{\sigma}\sqrt{x_0^T(X^TX)^{-1}x_0}$

Де - t-статистика з ступенями свободи в . $t_{n-p}^{\alpha/2}$ $n-p$ $\alpha/2$

Сподіваємось, це робить трохи зрозумілішим, чому інтервал передбачення завжди ширший і яка основна різниця між двома інтервалами. Цей приклад був адаптований з далеких, лінійних моделей з R, Sec. 4.1.

— jpgard
джерело

2

Приємно бачити стару нитку, значно покращену чітким і продуманим відгуком. Ласкаво просимо на наш сайт!

— whuber

Чи не повинно це бути ... x0 + 1 / n +1 (для інтервалу прогнозування (1)), і ... x0 + 1 / n (для довірчого інтервалу (2) _ www2.stat.duke.edu /~tjl13/s101/slides/unit6lec3H.pdf real-statistics.com/regression/…

— користувач48956

12

Коротка відповідь:

Інтервал прогнозування являє собою інтервал , пов'язаний з випадковою змінною ще не спостерігається (прогнозування).

Довірчий інтервал являє собою інтервал , пов'язаний з параметром і є частотної концепцією.

Ознайомтесь тут з повною відповіддю від Роб Хайндман, творець пакету прогнозів у Р.

— pablo_sci
джерело

3

Ця відповідь призначена для тих читачів, які не змогли повністю зрозуміти попередні відповіді. Давайте обговоримо конкретний приклад. Припустимо, ви намагаєтеся передбачити вагу людей від їх зросту, статі (чоловіки, жінки) та дієти (стандарт, низьковуглеводневий, вегетаріанський). В даний час на Землі налічується понад 8 мільярдів людей. Звичайно, можна знайти багато тисяч людей, що мають однаковий зріст та інші два параметри, але різну вагу. Вага їх різко відрізняється, оскільки деякі з них мають ожиріння, а інші можуть страждати від голоду. Більшість із цих людей будуть десь посередині.

Одне завдання - передбачити середню вагу всіх людей, які мають однакові значення всіх трьох пояснювальних змінних. Тут ми використовуємо довірчий інтервал. Ще одна проблема - прогнозувати вагу якоїсь конкретної людини. І ми не знаємо життєвих обставин цієї людини. Тут потрібно використовувати інтервал прогнозування. Він зосереджений навколо тієї ж точки, але він повинен бути набагато ширшим, ніж інтервал довіри.

— Сергій Кущенко
джерело