Приклади, де метод моментів може перемогти максимальну ймовірність у невеликих зразках?


57

Максимальні оцінки вірогідності (MLE) є асимптотично ефективними; ми бачимо практичний підсумок у тому, що вони часто роблять краще, ніж метод моментних оцінок (MoM) (коли вони різняться), навіть при невеликих розмірах вибірки

Тут "краще, ніж" означає в сенсі, як правило, має меншу дисперсію, коли обидві є неупередженими, і, як правило, меншою середньоквадратичною помилкою (MSE) загалом.

Питання, однак, виникає:

Чи бувають випадки, коли МО може перемогти MLE - на MSE , скажімо - невеликими зразками?

(де це не якась дивна / вироджена ситуація - тобто з огляду на те, що умови існування ML / / можуть бути асимптотично ефективними)

Наступним питанням буде: "наскільки великим може бути малий?" - тобто, якщо є приклади, чи є такі, які все ще зберігаються при відносно великих розмірах вибірки, можливо, навіть усіх кінцевих розмірів вибірки?

[Я можу знайти приклад упередженого оцінювача, який може перемогти ML у обмежених зразках, але це не MoM.]


Зауважте, додано ретроспективно: моя увага зосереджена насамперед на універсальній справі (саме звідки походить моя основна цікавість). Я не хочу виключати багатоваріантні випадки, але я також особливо не хочу вникати в розширені дискусії щодо оцінки Джеймса-Штейна.


Нема проблем; це трапляється з усіма нами, і зі мною частіше, ніж ти. Я, мабуть, мав би сказати це прямо у назві, але це було вже досить довго.
Glen_b

@cardinal Я вже зробив критерії чіткішими.
Glen_b

3
Є й інші способи, за допомогою яких метод моментів може «перемогти» максимальну ймовірність. Наприклад, у задачах з оцінкою суміші звичайної суміші MLE, як відомо, важко обчислити, в той час як MM це не так.
vqv

@vqv Звичайно, це сенс, в якому MoM може бути кращим.
Glen_b

2
Оскільки я схильний співчувати плебеям, я повідомляю, що у зразку iid Uniforms оцінювач MoM для θ має однаковий MSE з патриціантом (MLE), якщо розмір вибірки дорівнює 1 , або 2 . .. Але, на жаль, для більших розмірів вибірки патрицій знову підтверджує свій суверенітет ...U(0,θ)θ12
Алекос Пападопулос

Відповіді:


36

Це може вважатися ... обманом, але Оцінювач OLS є оцінкою MoM. Розглянемо стандартну специфікацію лінійної регресії (з стохастичними регресорами , тому величини залежать від матриці регресора) та вибірку розміру n . Позначимо s 2 Оцінювач OLS дисперсії σ 2 терміна помилки. Це неупередженоKns2σ2

MSE(s2)=Var(s2)=2σ4nK

Розглянемо тепер MLE з . це єσ2

Це упереджено. Його MSE є

σ^ML2=nKns2

висловлюючи MLE з точки зору МНК і використовуючи вираз для МНК ми отримуємо дисперсію

MSE(σ^ML2)=Var(σ^ML2)+[E(σ^ML2)σ2]2

МЗЕ( σ 2 М L )=2(п-До)+K2

MSE(σ^ML2)=(nKn)22σ4nK+(Kn)2σ4
MSE(σ^ML2)=2(nK)+K2n2σ4

Ми хочемо, щоб умови (якщо вони існували), за яких

MSE(σ^ML2)>MSE(s2)2(nK)+K2n2>2nK

2(nK)2+K2(nK)>2n2
2n24nK+2K2+nK2K3>2n2
4n+2K+nKK2>0K2(n+2)K+4n<0
K
ΔK=(n+2)216n=n2+4n+416n=n212n+4
n
Δn=12242=816
n1,n2=12±8162=6±42n1,n2={1,12}
nnΔK<0K

K

K1,K2=(n+2)±n212n+42=n2+1±(n2)2+13n

n>12KK1<K<K2

MSE(σ^ML2)>MSE(s2)
n=505<K<47за нерівність дотримуватися. Цікаво, що для невеликої кількості регресорів MLE краще в MSE сенсі.


K

K1,K2=(n2+1)±(n2+1)24n
55

1
E(uuX)=σ2E(uuX)σ2

1
nnKE[Xk(YXβ)]=0E[(YXβ)2]=σ2nу знаменнику.
хлопець

2
nKn

1
@guy (CONTD). Тож, про що ви говорите, це те, що оцінювач MoM відхилення помилок у цьому випадку є максимальною оцінкою ймовірності, і тому результат, який я отримав, порівнює не МО з ML, а ML з OLS (останній є категорією самостійно). .. так, можна стверджувати, що це (також) справа.
Алекос Пападопулос

1
eE(e2)=nknσ2σ2s2

17

"У цій статті ми розглядаємо нову параметризацію двопараметричного зворотного гауссового розподілу. Ми знаходимо оцінки параметрів оберненого гауссового розподілу методом моментів та методом максимальної вірогідності. Потім ми порівнюємо ефективність Оцінювачі двох методів на основі їх зміщення та середньої квадратичної помилки (MSE). Для цього ми фіксуємо значення параметрів, запускаємо моделювання та повідомляємо MSE та зміщення для оцінок, отриманих обома методами. Висновок полягає в тому, що коли розміри вибірки становлять 10, метод моментів, як правило, є більш ефективним, ніж метод максимальної ймовірності для оцінок обох параметрів (лямбда і тета) .... " читати далі

Сьогодні не можна (або не слід) довіряти всьому опублікованому, але остання сторінка газети видається багатообіцяючою. Сподіваюсь, це адреса вашої записки додана заднім числом.


1
θ

Гарна знахідка! Навіть якщо результати вимкнено, приємно бачити, де претензія явно десь зазначена.
Бен Огорек

Документ, на який я посилався у своїй відповіді, походить з магістерської дисертації, яка доступна у повному обсязі тут: digi.library.tu.ac.th/thesis/st/0415 . Шість людей, у тому числі доцент, підписалися на цей результат.
Зимує

14

Відповідно до симуляцій, проведених Хоскінгом та Уоллісом (1987) у «Оцінці параметрів та квантилів для узагальненого розподілу парето», параметри двопараметричного узагальненого розподілу Парето, задані cdf

G(y)={1(1+ξyβ)1ξξ01exp(yβ)ξ=0

або щільність

g(y)={1β(1+ξyβ)11ξξ01βexp(yβ)ξ=0

є більш надійними, якщо їх оцінюють за допомогою MOM на відміну від ML. Це стосується зразків до розміру 500. Оцінки MOM даються за допомогою

β^=y¯y2¯2(y2¯(y¯)2)

і

ξ^=12(y¯)22(y2¯(y¯)2)

з

y2¯=1ni=1nyi2

У роботі є досить багато помилок (принаймні, моя версія). Результати для оцінок MOM, наведені вище, були люб’язно надані "heropup" у цій темі .


Дякую за це Це один із найпростіших прикладів того, що я до цього часу шукав.
Glen_b

13

Я знайшов одне:

Для асиметричного експоненціального розподілу потужності

f(x)=ασΓ(1α)κ1+κ2exp(κασα[(xθ)+]α1κασα[(xθ)]α),α,σ,κ>0, and x,θR

θσ

Delicado and Goria (2008),
Невеликий вибірковий порівняння методів максимальної ймовірності, моментів та L-моментів для асиметричного експоненціального розподілу потужності,
Журнал обчислювальної статистики та аналіз даних
Том 52, випуск 3, січень, с. 1661-1673

(також див. http://www-eio.upc.es/~delicado/my-public-files/LmomAEP.pdf )


13

Метод моментів (ММ) може перемогти максимальну ймовірність (ML) підхід, коли можна вказати лише деякі моменти сукупності. Якщо розподіл не визначено, оцінки ML не будуть послідовними.

Припускаючи кінцеві моменти та ідентичні спостереження, ММ може забезпечити хороших оцінювачів із приємними асимптотичними властивостями.

X1,,XnXff:RR+νk=Rxkf(x)dxkν4

Xk¯=1ni=1nXikν8<

n(X4¯ν4)dN(0,ν8ν42),
d

n(X4¯ν4)X8¯X4¯2dN(0,1)
X8¯X4¯2Pν8ν42

ν4f

Модельне дослідження:

Патріота та ін. (2009) провели деякі імітаційні дослідження, щоб перевірити коефіцієнти відхилення тестувань гіпотез у моделі помилок у змінних. Отримані результати свідчать про те, що підхід ММ виробляє коефіцієнти помилок за нульовою гіпотезою ближче до номінального рівня, ніж ML для малих вибірок.

Історична записка:

Метод моментів був запропонований К. Пірсоном у 1894 р. «Внески в математичну теорію еволюції». Метод максимальної вірогідності був запропонований Р.А. Фішером у 1922 р. "Про математичні основи теоретичної статистики". Обидва статті, де опубліковані в «Філософських транзакціях Лондонського королівського товариства», серія А.

Довідка:

Фішер, Р.А. (1922). Про математичні основи теоретичної статистики, Філософські операції Лондонського королівського товариства, серія A, 222, 309-368.

Патріота, А.Г., Болфарін, Н, де Кастро, М (2009). Модель гетероскедастичних структурних помилок змінних з похибкою рівняння, Статистична методологія 6 (4), 408-423 ( pdf )

Пірсон, К (1894). Внески до математичної теорії еволюції, філософських транзакцій Лондонського королівського товариства, серія A, 185, 71-110.


1
Ваша відповідь звучить як потенційно цікава. Чи можете ви трохи розширитись на ньому? Я не впевнений, що цілком бачу.
Glen_b

@Glen_b, будь ласка, перевірте, чи допоможе вам моє останнє доповнення.
Олександр Патріота

Дякую за це; Я вірю, що я бачу, до чого ти потрапляєш.
Glen_b

Гаразд, це загальний коментар, але я думаю, він відповідає на ваше запитання. Якщо ви надаєте загальну інформацію про поведінку даних, то цілком природно, що підхід ML є перевершує підхід MM. У роботі [1] ми проводимо деякі імітаційні дослідження для перевірки швидкості відхилення тестувань гіпотез у моделі помилок у змінних. Отримані результати свідчать про те, що підхід ММ виробляє коефіцієнти помилок за нульовою гіпотезою ближче до номінального рівня, ніж ML для малих вибірок. [1] ime.usp.br/~patriota/STAMET-D-08-00113-revision-v2.pdf
Александр Патріота

Це нетиповий приклад методу моментів (МО). MoM зазвичай розгортається в задачах параметричного оцінювання, де існує чітко визначене параметричне сімейство розподілів. З іншого боку, тут можна визначити непараметричну оцінку максимальної ймовірності. Емпірична функція розподілу, скажімо, F-hat, - непараметрична оцінка максимальної ймовірності невідомої функції розподілу F. Вважаючи, що 4-й момент є функціоналом F, непараметричний MLE 4-го моменту є 4-м моментом F-hat . Це те саме, що і зразок 4-го моменту.
vqv

5

Додаткові джерела на користь MOM:

Hong, HP та W. Ye. 2014. Аналіз екстремальних наземних снігових навантажень для Канади з використанням записів глибини снігу . Природні небезпеки 73 (2): 355-371.

Використання MML може дати нереалістичні прогнози, якщо розмір вибірки невеликий (Hosking et al. 1985; Martin and Stedinger 2000).


Мартінс, Е.С. та Дж. Р. Стедінгер. 2000. Узагальнені максимально вірогідні узагальнені кількісні оцінювачі граничних значень для гідрологічних даних . Дослідження водних ресурсів 36 (3): 737-744.

Анотація:

Трипараметричне узагальнене надзвичайне значення (GEV) поширення знайшло широке застосування для опису річних повеней, опадів, швидкості вітру, висот хвиль, глибин снігу та інших максимумів. Попередні дослідження показують, що малі вибіркові оцінки максимальної ймовірності (MLE) параметрів нестабільні, і рекомендують L-моменти. Більш недавні дослідження показують, що метод оцінок кількісних моментів моментів має для −0,25 <κ <0,30 меншу похибку кореневого середнього квадрата, ніж L моменти та MLE. Вивчення поведінки MLE в малих зразках демонструє, що абсурдні значення параметра GEV-форми κ можуть генеруватися. Використання байєсівського попереднього розподілу для обмеження значень κ до статистично / фізично обґрунтованого діапазону в узагальненому аналізі максимальної ймовірності (GML) усуває цю проблему.

У розділах «Огляд вступу та літератури» вони цитують додаткові документи, в яких робиться висновок про те, що MOM в деяких випадках перевершує MLE (знову ж, моделювання екстремальних значень), наприклад

Хоскінг та ін. [1985a] показують, що невеликі вибіркові оцінки параметрів MLE є дуже нестабільними, і рекомендують оцінювачі, зважені на ймовірність, (PWM), еквівалентні L-моментальним оцінкам [Hosking, 1990]. [...]

Хоскінг та ін. [1985a] показало, що оцінювачі ймовірнісно зважених моментів (PM) або еквівалентних L моментів (LM) для розподілу GEV є кращими, ніж оцінки максимальної ймовірності (MLE) з точки зору зміщення та дисперсії для розмірів вибірки, що змінюються від 15 до 100. Зовсім недавно Madsen та ін. [1997a] показало, що метод кількісних оцінок моментів (MOM) має менший RMSE (кореневий середній-квадратний рр) на -0,25 <K <0,30, ніж LM та MLE, при оцінці події 100 років для розмірів вибірки 10-50 . MLE є кращими лише тоді, коли K> 0,3 та розміри вибірки скромні (n> = 50).

K (kappa) - параметр форми GEV.

документи, які фігурують у цитатах:

Хоскінг Дж, Уолліс Дж, Вуд Е (1985) Оцінка узагальненого екстремального значення розподілу методом вірогідно зважених моментів . Технометрія 27: 251–261.

Мадсен, Х., П. Ф. Расмуссен та Д. Росб'єрг (1997) Порівняння методів максимумів річних серій та часткових тривалостей для моделювання екстремальних гідрологічних подій , 1, Моделювання на місці, Водний ресурс. Рез., 33 (4), 747-758.

Хоскінг, JRM, L-моменти: Аналіз та оцінка розподілів за допомогою лінійних комбінацій статистики замовлень , JR Stat. Соц., Сер. Б, 52, 105-124, 1990.


Крім того, я маю той самий досвід, що був зроблений у вищенаведених статтях, у випадку моделювання екстремальних подій з малим та помірним розміром вибірки (<50-100, що є типовим) менший RMSE.


3

У процесі відповіді на це: Оцінюючи параметри для бінома, я наткнувся на цей документ:

Ingram Olkin, A John Petkau, James V Zidek: Порівняння N оцінок для біноміального розподілу. Яса 1981р.

NBin(N,p)p


Одне, що дуже приємно в цьому прикладі, це те, що дуже просто передати ситуацію - багато людей знайомі з двочленним (принаймні, в концепції, якщо не завжди з назвою).
Glen_b
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.