Як розрахувати дискретний інтервал покриття?
Що я вмію робити:
Якби у мене була модель безперервної дії, я міг би визначити 95% довірчий інтервал для кожного з моїх передбачуваних значень, а потім побачити, як часто фактичні значення знаходилися в межах довірчого інтервалу. Я можу виявити, що лише 88% часу мій інтервал довіри 95% покривав фактичні значення.
Що я не знаю, як робити:
Як це зробити для дискретної моделі, наприклад, пуассона або гамма-пуассона? Для цієї моделі я маю на увазі наступне спостереження (із понад 100 000 я планую генерувати :)
№ спостереження: (довільно)
Прогнозоване значення: 1,5
Прогнозована ймовірність 0: .223
Прогнозована ймовірність 1: .335
Прогнозована ймовірність 2: .251
Прогнозована ймовірність 3: .126
Прогнозована ймовірність 4: .048
Прогнозована ймовірність 5: .014 [і 5 або більше дорівнює .019]
... (тощо)
Прогнозована ймовірність 100 (або до якоїсь іншої нереалістичної цифри): .000
Фактичне значення (ціле число, наприклад "4")
Зауважте, що, хоча я давав значення пуассона вище, у фактичній моделі передбачуване значення 1,5 може мати різні прогнозовані ймовірності 0,1, ... 100 у спостереженнях.
Мене бентежить дискретність значень. Очевидно, що "5" знаходиться поза інтервалом 95%, оскільки лише 0,019 на рівні 5 і вище, що менше 0,05. Але 4 буде багато - індивідуально вони знаходяться всередині, але як я спільно оцінювати кількість 4-х більш правильним?
Чому мені все одно?
Моделі, на які я дивлюся, піддаються критиці за точність на сукупному рівні, але дають погані індивідуальні прогнози. Хочу побачити, наскільки гіршими є погані індивідуальні прогнози, ніж сутнісно широкі інтервали довіри, передбачені моделлю. Я очікую, що емпіричне покриття буде гіршим (наприклад, я можу виявити, що 88% значень лежать в межах 95% довірчого інтервалу), але я сподіваюся лише трохи гірше.