Як розрахувати рівень довіри для розподілу Пуассона?


32

Хотілося б знати, наскільки я впевнений у своєму . Хтось знає про спосіб встановити верхній і нижній рівні довіри для розподілу Пуассона?λ

  • Спостереження ( ) = 88n
  • Середня вибірка ( ) = 47,18182λ

як би виглядала 95-відсоткова впевненість у цьому?


Ви також можете розглянути можливість завантаження своїх оцінок. Ось короткий підручник з завантаження.
Марк Т Паттерсон

Відповіді:


27

Для Пуассона середнє значення та дисперсія є обома . Якщо потрібно інтервал довіри навколо лямбда, ви можете обчислити стандартну помилку як .λλ/n

95-відсотковий інтервал довіри - .λ^±1.96λ^/n


26
Це добре, коли велика, оскільки тоді Пуассон адекватно наближений нормальним розподілом. Для малих значень або більшої впевненості доступні кращі інтервали. Дивіться math.mcmaster.ca/peter/s743/poissonalpha.html для двох з них разом з аналізом їх фактичного покриття. (Тут "точний" інтервал дорівнює (45,7575, 48,6392), інтервал "Пірсон" дорівнює (45,7683, 48,639), а нормальне наближення дає (45,7467, 48,617): це трохи занадто низько, але досить близько, тому щоn λ = 4152nλnλ=4152
4152.

4
Для інших розгублених, як я: ось опис, звідки береться 1,96.
mjibson

2
Як ви обчислили точний інтервал для цієї проблеми, враховуючи інформацію на цьому веб-сайті, надану whuber? Я не міг перейти, тому що на цьому веб-сайті вказується лише те, як діяти, коли у вас є один зразок. Можливо, я просто не розумію чогось простого, але мій розподіл має набагато менше значення лямбда (n), тому я не можу використовувати нормальне наближення і не знаю, як обчислити точне значення. Будь-яка допомога буде дуже вдячна. Спасибі!

Тут вони використовують стандартне відхилення середнього права? Тобто SE = sig/sqrt(N) = sqrt(lam/N),? Це мало б сенс, оскільки стандартне відхилення одиничних значень sigговорить нам про ймовірність отримання випадкових вибірок з розподілу Пуассона, тоді як, SEяк визначено вище, нам говорить про нашу впевненість lam, враховуючи кількість вибірок, які ми використовували для його оцінки.
AlexG

17

У цій статті розглянуто 19 різних способів розрахунку довірчого інтервалу для середнього розподілу Пуассона.

http://www.ine.pt/revstat/pdf/rs120203.pdf


2
Незважаючи на повідомлення мода тут, мені подобається ця відповідь такою, яка є, тому що вона вказує на те, що щодо оцінювання вимірюваної системи Пуассона існує менше загальної думки.
Карл Віттофт

7

Окрім відповідей, які надали інші, ще один підхід до цієї проблеми досягається за допомогою модельного підходу. Підхід до центральної граничної теореми, безумовно, справедливий, і завантажувані оцінки забезпечують великий захист від невеликих проблем вибірки та помилок.

Для чистої ефективності ви можете отримати кращий довірчий інтервал для , використовуючи підхід на основі регресійної моделі. Не потрібно проходити виводи, але простий обчислення в R йде так:λ

x <- rpois(100, 14)
exp(confint(glm(x ~ 1, family=poisson)))

Це несиметрична оцінка інтервалу, пам'ятайте, оскільки природним параметром пуассона glm є відносна швидкість журналу! Це є перевагою, оскільки існує тенденція до перекосу даних, що підраховуються праворуч.

Наведений вище підхід має формулу, і це:

exp(logλ^±1nλ^)

Цей довірчий інтервал є "ефективним" в тому сенсі, що він походить від максимальної оцінки ймовірності за шкалою природних параметрів (log) для даних Пуассона, і забезпечує більш жорсткий інтервал довіри, ніж інтервал на основі шкали підрахунку, зберігаючи номінальне покриття 95% .


+1 Я думаю, що я би використовував інший прикметник, ніж ефективність, хоча (або бути більш зрозумілим, ви маєте на увазі обчислювальну чи кодову ефективність гольфу). коментар whuber вказує на ресурс, який дає точні інтервали, а підхід glm заснований також на асимптотичних результатах. (Хоча це більш загально, тому мені подобається також рекомендувати такий підхід.)
Енді W

Насправді, думаючи про це ще декілька, точне висвітлення посилань на (я думаю) застосовується лише в тому випадку, якщо ви вказуєте не дивлячись на дані. Дивіться швидке моделювання, покриття, розраховане на основі спостережуваного значення (для нових спостережень), значно нижче. Швидке моделювання тут . μ
Andy W

1
Який ваш авторитет для цієї формули. Чи можемо ми мати цитування?
pauljohn32

@AndyW: ваше посилання недійсне для швидкого моделювання
pauljohn32

1
@ pauljohn32 ознайомтеся з текстом Casella Berger, особливо щодо експоненціальної родини, коефіцієнт журналу - це природний параметр.
AdamO

5

З огляду на поширення Пуассона ,

  • кількість підрахованих подій дорівнює n.
  • середнє значення (λσ2

Крок за кроком,

  • λ^=nλ
  • n>20σ

stderr=σ=λn

Тепер 95% довірчий інтервал -

I=λ^±1.96 stderr=n±1.96 n

[Відредаговано] Деякі розрахунки на основі даних запитання,

  • λ

    Я роблю це припущення, оскільки оригінальне запитання не дає жодного контексту щодо експерименту чи того, як були отримані дані (що має надзвичайно важливе значення при маніпулюванні статистичними даними).

  • 95% довірчий інтервал для конкретного випадку

I=λ±1.96 stderr=λ±1.96 λ=47.18182±1.96 47.18182[33.72,60.64]

Отже, оскільки вимірювання (n = 88 подій) знаходиться за межами довірчого інтервалу 95%, ми робимо висновок, що,

  1. Процес не слідує процесу Пуассона, або,

  2. λ


λ/n


1
λnλ

2
λλ

2
Я вважаю, що відповідь jose.angel.jiminez, наведена вище, є невірною та виникає через неправильне прочитання оригінального питання. У початковому плакаті було зазначено "Спостереження (n) = 88" - це кількість спостережуваних інтервалів часу, а не кількість спостережуваних подій загалом або за інтервал. Середня кількість подій на інтервал, протягом вибірки з 88 інтервалів спостереження, - лямбда, подана оригінальним плакатом. (Я б включив це як коментар до публікації Хосе, але я занадто новий для сайту, щоб його можна було коментувати.)
user44436

@ user44436 додав відповідь, яка повинна бути коментарем. Я повторно розміщую це як коментар, щоб ви могли його побачити, і тому що, як невідповідь, його можна буде зняти: ------- Я вважаю, що відповідь Джозею вище неправильна і виникає з омани початкового питання. На початковому плакаті зазначалося Спостереження (n) = 88 - це кількість спостережуваних інтервалів часу, а не кількість подій, що спостерігалися загалом, або за інтервал. Середня кількість подій на інтервал протягом вибірки з 88 інтервалів спостереження - лямбда, подана оригінальним плакатом.
Мерре
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.