Чи можна робити імовірнісні твердження з інтервалами прогнозування?


12

Я прочитав безліч чудових дискусій на сайті щодо інтерпретації довірчих інтервалів та інтервалів прогнозування, але одна концепція все ще трохи спантеличує:

Розглянемо рамку OLS, і ми отримали відповідну модель . Нам дали і попросили передбачити його відповідь. Ми обчислюємо і, як бонус, ми також надаємо 95% інтервал прогнозування навколо нашого прогнозування, a a Отримання формули меж прогнозування в лінійній моделі . Назвемо цей інтервал передбачення PI. х*х*Т βy^=Xβ^xxTβ^

Тепер, що з наступного (або жодного) не є правильним тлумаченням ІП?

  1. Для , зокрема, лежить в межах PI з імовірністю 95%. y ( x )xy(x)
  2. Якщо нам дано велику кількість s, ця процедура для обчислення ІП покриє справжні відповіді в 95% часу.x

З формулювань @ Гунга в інтервалі прогнозування лінійної регресії , здається, колишня правда (хоча я дуже міг неправильно трактувати.) Інтерпретація 1 здається для мене протиінтуїтивною (в тому сенсі, що ми робимо висновки Байєса з частотистського аналізу), але якщо це правильно, це тому , що ми передбачали на реалізацію випадкової величини VS. оцінює з параметром ?

(Редагувати) Бонусне питання: Припустимо, ми знали, що таке справжня , тобто процес генерування даних, чи зможемо ми говорити про ймовірності щодо будь-якого конкретного прогнозування, оскільки ми просто дивимось на ?ϵβϵ

Моя остання спроба в цьому: ми можемо "концептуально розкласти" (вживаючи слово дуже вільно) інтервал передбачення на дві частини: (A) інтервал довіри навколо передбачуваної середньої реакції та (B) сукупність інтервалів, які просто кількісні. діапазони терміна помилки. (B) ми можемо робити імовірнісні твердження про те, що залежать від того, щоб знати справжню передбачувану середню, але в цілому ми можемо трактувати лише інтервали прогнозування як часто-частотні КІ навколо прогнозованих значень. Це дещо правильно?


Відповідь, яку я написав на сайті stats.stackexchange.com/a/26704, передбачає, що щось подібне (2) є таким (згідно законів великої кількості), але, безумовно, не (1).
whuber

Відповіді:


5

По-перше, при використанні слова ймовірність у ветеринарів не виникає проблем із використанням слова ймовірність при прогнозуванні чогось, коли випадковий фрагмент ще не відбувся. Нам не подобається вірогідність слова для довірчого інтервалу, оскільки справжній параметр не змінюється (ми припускаємо, що це фіксоване, хоча і невідоме значення), а інтервал фіксований, оскільки він заснований на даних, які ми вже зібрали. Наприклад, якщо наші дані походять від випадкової вибірки дорослих чоловіків і x - їхній зріст, y - їх вага, і ми підходимо до загальної регресійної моделі, тоді ми не використовуємо ймовірності, коли говоримо про довірчі інтервали. Але якщо я хочу поговорити про те, якою є вірогідність вибору 65-дюймового самця у вільний вибір з усіх 65-ти дюймових самців, які мають вагу протягом певного інтервалу,

Тому я б сказав, що відповідь на бонусне питання - «Так». Якби ми знали достатню кількість інформації, то могли б обчислити ймовірність побачити значення ay протягом інтервалу (або знайти інтервал з бажаною ймовірністю).

Для вашої заяви з позначкою "1." Я б сказав, що це нормально, якщо ви використовуєте слово типу "приблизний", коли говорите про інтервал чи ймовірність. Як ви згадуєте у бонусному питанні, ми можемо розкласти непевність на частину про центр передбачення та частину про випадковість навколо справжньої середини. Коли ми поєднуємо їх для покриття всієї нашої невизначеності (і припускаючи, що модель / нормальність є правильною), у нас є інтервал, який буде занадто широким (хоча може бути і занадто вузьким), тому ймовірність появи нової випадково вибраної точки потрапляння в інтервал прогнозування не буде рівно 95%. Ви можете побачити це за допомогою моделювання. Почніть з відомої моделі регресії з усіма відомими параметрами. Виберіть зразок (через багато значень x) з цього співвідношення, пристосуйте регресію, та обчислити інтервал (и) прогнозування. Тепер знову генеруйте велику кількість нових точок даних із справжньої моделі та порівняйте їх з інтервалами прогнозування. Я робив це кілька разів, використовуючи наступний код R:

x <- 1:25
y <- 5 + 3*x + rnorm(25, 0, 5)
plot(x,y)

fit <- lm(y~x)
tmp <- predict(fit, data.frame(x=1:25), interval='prediction')

sapply( 1:25, function(x){ 
    y <- rnorm(10000, 5+3*x, 5)
    mean( tmp[x,2] <= y & y <= tmp[x,3] )
})

Я запускав вищезазначений код кілька разів (близько 10, але я не тримав уважного підрахунку), і більшу частину часу частка нових значень, що потрапляють в інтервали, коливалася в діапазоні від 96% до 98%. У мене був один випадок, коли розрахункове стандартне відхилення було дуже низьким, що пропорції були в діапазоні від 93% до 94%, а всі інші були вище 95%. Тож я був би задоволений вашою заявою 1 зі зміною на "приблизно 95%" (якщо припустити, що всі припущення є істинними, або достатньо близькими, щоб приблизно їх висвітлити).

Аналогічно, заява 2 потребує "приблизно" або подібного, оскільки для покриття нашої невизначеності ми вловлюємо в середньому більше 95%.


0

Другий - кращий. Перша залежить від того, яка інша інформація відома.

Використовуючи випадковий приклад, правда, що "95% інтервалів (при 95% впевненості) включали б справжнє середнє значення [ввести змінну]".

З іншого боку, якщо результат очевидно протиінтуїтивний, ми не можемо стверджувати (1).

Наприклад, "мій тест на значимість на 95% впевненості показує, що зріст і вага негативно співвідносяться". Ну, це очевидно помилково, і ми не можемо сказати, що існує "95% ймовірність того, що це правда". Насправді, враховуючи попередні знання, дуже мала ймовірність того, що це правда. Це, однак, можна стверджувати , що «95% таких тестів б дали правильний результат.»


1
Ця відповідь, здається, обговорює довірчі інтервали, а не інтервали прогнозування.
whuber

@whuber Цей же принцип діє. Ми по суті маємо справу з довірчими інтервалами для певної змінної ("передбачувана" змінна).

2
Існує важлива відмінність між фіксованим значенням (як параметр) і значенням випадкової величини. Більше того, серце цього питання доходить до цього розрізнення: що можна сказати про ймовірність того ("майбутнього") випадкового результату? Тому видається недостатнім - і, можливо, оманливим - трактувати це питання як одне лише про значення довіри.
whuber

@whuber Заява (2) у дописі все ще не означає твердження (1). Як і в моєму прикладі, передбачення, яке суперечить явній інтуїції / передумови, не означає, що майбутні результати мають 95% шансу потрапити в ІП. Це правда, що цей процес, у 95% часу, дав би ПІ вміст у майбутньому. Але іноді можна виявити, коли це сталося чи не відбулося.

Ви маєте рацію, але якщо я правильно читаю ваш коментар, я підозрюю, що він пропускає суть. Справа не в тому, що (за задумом) ІП має лише 95% шансів покрити майбутнє значення або що додаткові дані (або інтуїція) можуть дати більше інформації. Питання, що стоять перед нами, стосується того, чи можна інтерпретувати ІП як умовну ймовірність майбутнього значення (на основі значень регресії). Це насправді є інтерпретація ПІ Байєса , як зазначає ОП, але вона недійсна для частофілістського ПІ.
whuber
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.