Неможлива проблема оцінки?


17

Питання

Дисперсія негативного біноміального розподілу (NB) завжди більша за середню. Коли середнє значення вибірки більше, ніж його дисперсія, спроба пристосувати параметри НБ з максимальною вірогідністю або з моментом оцінки не вдасться (рішення з кінцевими параметрами не існує).

Однак можливо, що вибірка, взята з розподілу НБ, має значення більше, ніж дисперсія. Ось відтворюваний приклад у Р.

set.seed(167)
x = rnbinom(100, size=3.2, prob=.8);
mean(x) # 0.82
var(x) # 0.8157576

Існує ненульова ймовірність, що НБ створить вибірку, параметри якої неможливо оцінити (методами максимальної вірогідності та моменту).

  1. Чи можна дати гідні оцінки для цього зразка?
  2. Що говорить теорія оцінки, коли оцінки не визначені для всіх вибірок?

Про відповідь

Відповіді @MarkRobinson та @Yves дали мені зрозуміти, що параметризація - це головне питання. Щільність ймовірності NB зазвичай записується як

або як P(X=k)=Γ(r+k)

P(X=k)=Γ(r+k)Γ(r)k!(1p)rpk
P(X=k)=Γ(r+k)Γ(r)k!(rr+m)r(mr+m)k.

За першою параметризацією максимальна оцінка ймовірності дорівнює кожного разу, коли дисперсія вибірки менша за середню, тому нічого не можна сказати про p . Під другим це ( , ˉ x ) , тому ми можемо дати розумну оцінку m . Нарешті, @MarkRobinson показує, що ми можемо вирішити проблему нескінченних значень за допомогою(,0)p(,x¯)mr1+r замість .r

На закінчення, з цією проблемою оцінки немає нічого принципово неправильного, за винятком того, що ви не завжди можете дати змістовні інтерпретації і p для кожного зразка. Для справедливості, ідеї присутні в обох відповідях. Я вибрав те, що @MarkRobinson, як правильний для доповнень, які він дає.rp


Неправильно стверджувати, що максимальна ймовірність провалюється в такому випадку. Тільки моменти можуть зіткнутися з труднощами.
Сіань

@ Xi'an Чи можете ви розширити? Ймовірність цього зразка не має максимуму в області (також див. Це, наприклад). Я щось пропускаю? У будь-якому випадку, якщо ви можете дати ML оцінки параметрів для цього випадку, я оновлю питання. (0,)×(0,1)
gui11aume

1
Ймовірність може мати свій максимум на нескінченній відстані при і r . Аналогічна проблема, але з більш простою діагностикою, пов'язана з розподілом Lomax : відомо, що оцінка ML для форми є нескінченною, коли зразок має коефіцієнт варіації CV < 1 . Але ймовірність цієї події є позитивною для будь-якого розміру вибірки і є досить сильною для, скажімо, α = 20 та n = 200 . p0rCV<1α=20n=200
Ів

@Yves Дякую за цей інший приклад (про який я не знав). Що люди роблять у цьому випадку?
gui11aume

2
У прикладі Ломакса деякі люди вирішили використовувати експоненціальний розподіл, який є граничним для та λ / α θ > 0 . Це зводиться до прийняття нескінченної оцінки ML. Заради інваріантності шляхом повторної параметризації я вважаю, що нескінченні параметри можуть мати сенс у деяких випадках. Для вашого прикладу NB те саме відбувається, якщо ми вирішили використати розподіл Пуассона, що виникає внаслідок r p / ( 1 - p ) λ . αλ/αθ>0rp/(1p)λ
Ів

Відповіді:


11

введіть тут опис зображенняВ основному для вашої вибірки оцінка параметра розміру знаходиться на межі простору параметрів. Можна також розглянути питання про репараметризацію, таку як d = size / (size + 1); коли розмір = 0, d = 0, коли розмір має тенденцію до нескінченності, d наближається до 1. Виходить, що для заданих вами параметрів оцінки розмірів нескінченності (d близькі до 1) трапляються приблизно в 13% часу для Оцінки ймовірності профілів коригуваного профілю Cox-Reid (APL), що є альтернативою оцінкам MLE для NB (приклад, показаний тут) . Оцінки середнього параметра (або "проба") здаються нормальними (див. Рисунок, сині лінії - це справжні значення, червона крапка - це оцінка для вашого насіння = 167 вибірки). Більш детально про теорію APL ви знайдете тут .

Отже, я б сказав до 1.: Оцінки параметрів пристойного можуть бути .. розмір = нескінченність або дисперсія = 0 - це розумна оцінка з огляду на вибірку. Розглянемо інший простір параметрів, і оцінки будуть кінцевими.


Дякуємо, що приєдналися до сайту, щоб відповісти на моє запитання! Деталі вірогідності профілів Cox-Reid виглядають дуже перспективно.
gui11aume

8

p0rΘ: =(0,1)×(0,)λ>0[p,r]Θp0rrp/(1-p)λ. Ймовірність того, що максимальна ймовірність знайдена на межі, не дорівнює нулю.

Аналогічна проблема, але з більш простою діагностикою, пов'язана з розподілом Lomax : відомо, що оцінка форми ML нескінченна, коли зразок має коефіцієнт варіаціїРезюме<1. Але ймовірність цієї події є позитивною для будь-якого розміру вибірки, і є, наприклад>0,3 для α=20 і н=200.

Властивості ML мають великий розмір вибірки: за умов регулярності показано, що оцінка ML є унікальною та має тенденцію до істинного параметра. Однак для заданого кінцевого розміру вибірки оцінка ML може не існувати в домені, наприклад, тому що максимум досягнуто на кордоні. Він також може існувати у домені, який більше, ніж той, який використовується для максимізації.

У прикладі Ломакса деякі люди вирішили використовувати експоненціальний розподіл, що є межею для α і λ/αθ>0. Це зводиться до прийняття нескінченної оцінки ML. Оскільки Lomax - це спеціальна перепараметризація двопараметричного узагальненого розподілу паретоGPD(σ,ξ) with shape ξ>0, we could as well fit a GPD, then finding ξ^<0 instead of the exponential ξ^=0. For the NB example, we can chose to fit a Poisson distribution thus accepting a boundary value of the NB parameter.

For the sake of invariance by re-parameterization, I believe that infinite parameters can make sense in some cases.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.