Максимальна оцінка ймовірності - чому він використовується, незважаючи на те, що у багатьох випадках упереджений


25

Максимальна оцінка ймовірності часто призводить до упереджених оцінок (наприклад, її оцінка для дисперсійної вибірки є упередженою для розподілу Гаусса).

Що тоді робить його таким популярним? Чому саме його так багато використовують? Також, що зокрема робить його кращим, ніж альтернативний підхід - метод моментів?

Крім того, я помітив, що для Гаусса просте масштабування оцінювача MLE робить його неупередженим. Чому це масштабування не є стандартною процедурою? Я маю на увазі - Чому після обчислення MLE не буває звичайним знаходити необхідне масштабування, щоб зробити оцінювач об'єктивним? Здається, що стандартна практика є простим обчисленням оцінок MLE, за винятком, звичайно, добре відомого випадку Гаусса, де коефіцієнт масштабування відомий.


11
Є багато, багато альтернатив ML, не лише метод моментів - який, до речі, також має тенденцію створювати упереджені оцінки. Замість чого ви можете запитати: "чому хто-небудь хотів би використовувати неупереджений оцінювач?" Хороший спосіб почати дослідження цієї проблеми - пошук компромісних варіацій .
whuber

7
Як зазначав Уубер, немає принципової переваги в тому, щоб бути неупередженим.
Сіань

4
Я думаю, що @whuber означає "чому хто-небудь хотів би використовувати упереджений оцінювач?" Не потрібно багато роботи, щоб переконати когось, що об'єктивний оцінювач може бути розумним.
Кліф АВ

5
Див. En.wikipedia.org/wiki/… для прикладу, коли єдиний об'єктивний оцінювач, безумовно, не той, який ви хочете використовувати.
Scortchi

4
@Cliff Я мав намір задати питання в його більш провокаційній, потенційно більш загадковій формі. За цим ховається думка про те, що існує багато способів оцінити якість оцінювача, і багато з них не мають нічого спільного з упередженням. З цієї точки зору, найприродніше запитати, чому хтось запропонує об'єктивний оцінювач. Докладнішу інформацію з цієї точки зору див. У відповіді glen_b.
whuber

Відповіді:


18

Незаангажованість не обов'язково особливо важлива сама по собі.

Окрім дуже обмеженого набору обставин, більшість корисних оцінок є упередженими, однак вони отримані.

Якщо два оцінювачі мають однакову дисперсію, можна легко встановити аргумент за те, щоб віддати перевагу неупередженому перед упередженим, але це незвична ситуація (тобто ви можете з розумом віддати перевагу неупередженість, цетерис парибус - але ті примхливі цетери майже ніколи не парушаються ).

Більш типово, якщо ви хочете неупередженості, ви будете додавати певну дисперсію, щоб отримати її, і тоді питання буде в тому, чому б ви це зробили ?

Зсув - наскільки очікуване значення мого оцінювача буде в середньому занадто високим (при негативному зміщенні вказується занадто низький).

Коли я розглядаю невеликий оцінювач вибірки, мені це зовсім не цікаво. Мене зазвичай більше цікавить, наскільки невірним буде мій оцінювач у цьому випадку - моя типова відстань праворуч ... щось на зразок помилки «середньоквадратичний квадрат» або «середня абсолютна помилка» матиме більше сенсу.

Отже, якщо вам подобається низька дисперсія та низька упередженість, прохання сказати про оцінку мінімальної середньої квадратичної помилки має сенс; вони дуже рідко є неупередженими.

Упередженість та неупередженість - це корисне поняття, яке слід пам’ятати, але це не особливо корисна властивість шукати, якщо тільки ви не порівнюєте оцінки з однаковою дисперсією.

Оцінювачі ML мають тенденцію бути низькою дисперсією; як правило, вони не є мінімальними MSE, але вони часто мають менший MSE, ніж те, що ви можете змінити, щоб вони не були об'єктивними (коли ви взагалі можете це зробити).

В якості прикладу розгляне оцінку дисперсії при відборі проб з нормального розподілу σ 2 МСКО = S 2σ^MMSE2=S2n+1,σ^MLE2=S2n,σ^Unb2=S2n1n1


1
+1. Чи є інтуїція для (або, можливо, якоїсь теорії) вашого другого перед останнім абзацом? Чому оцінювачі ML мають тенденцію бути низькою дисперсією? Чому вони часто мають нижчий МСЕ, ніж неупереджений оцінювач? Також я здивований, коли бачу вираз для MMSE-оцінника дисперсії; я якось раніше з цим не стикався. Чому його так рідко використовують? І чи має це щось спільне з усадкою? Здається, що вона «скоротилася» від неупередженого до нуля, але мене бентежить те, що я звик думати про усадку лише у багатоваріантному контексті (по лінії Джеймса-Штейна).
Амеба каже: Відновити Моніку

1
@amoeba MLE - це, як правило, функції достатньої статистики і, принаймні, асимптотично мінімальної дисперсії неупередженої, тому ви очікуєте, що вони будуть малими дисперсіями у великих зразках, як правило, досягаючи ліміту CRLB; це часто відображається на менших зразках.Оцінки MMSE, як правило, скорочуються до нуля, оскільки це зменшує дисперсію (і, отже, невелика кількість ухилу до 0, що вводиться невеликою усадкою, як правило, зменшить MSE).
Glen_b -Встановіть Моніку

σ^MMSE2=S2n+1

Крім того, чи означає це, що оцінювач дисперсії ML не є оцінкою мінімальної дисперсії? В іншому випадку мінімальний оцінка MSE був би середньозваженим середнім (з додатними вагами) MLE та неупередженим оцінкою, але зараз він знаходиться поза цим діапазоном. Я міг би задати це окремим питанням, якщо ви вважаєте, що це має сенс.
Річард Харді

1
Цілу деривацію знайшов у статті Вікіпедії про MSE , я думаю, що це пояснює все.
Річард Харді

16

MLE дає найбільш вірогідне значення параметрів моделі, враховуючи модель та наявні дані - що є досить привабливою концепцією. Чому б ви вибрали значення параметрів, які роблять спостережувані дані менш вірогідними, коли ви можете вибрати значення, які роблять спостережувані дані найбільш ймовірними для будь-якого набору значень? Чи хотіли б ви пожертвувати цією особливістю заради неупередженості? Я не кажу, що відповідь завжди зрозуміла, але мотивація щодо MLE досить сильна та інтуїтивна.

Наскільки я знаю, MLE може бути більш широко застосований, ніж метод моментів. MLE здається більш природним у випадках прихованих змінних; наприклад, модель ковзної середньої величини (MA) або узагальнену модель авторегресивної умовної гетероскдастичності (GARCH) можна безпосередньо оцінити MLE (безпосередньо кажучи про те, що достатньо вказати функцію ймовірності та подати її на процедуру оптимізації) - але не методом моментів (хоча непрямі рішення, що використовують метод моментів, можуть існувати).


4
+1. Звичайно, є маса випадків, коли ви не хочете, щоб оцінити найімовірніше, наприклад, моделі Гауссової суміші (тобто необмежена ймовірність). Взагалі, чудова відповідь на допомогу інтуїції людей, що працюють з MLE.
Cliff AB

3
(+1) Але я думаю, що вам потрібно додати визначення значення "найімовірнішого" параметра, як такого, з огляду на те, що дані, найімовірніше, є цілком зрозумілими. Інші інтуїтивно бажані властивості оцінювача, не пов'язані з його тривалою поведінкою при повторній вибірці, можуть включати його, не залежно від того, як ви параметризуєте модель, і не виробляючи неможливі оцінки справжнього значення параметра.
Scortchi

6
Подумайте, все ще існує ризик того, що "найімовірніший" буде прочитаний як "найімовірніший".
Scortchi


2
@dsaxton: Статистики диференціювали ймовірність значення параметра з урахуванням даних від ймовірності даних, що отримали значення параметра протягом майже століття - див. Фішер (1921) "Про" ймовірну помилку кореляції ", Метрон , 1 , с. 3-32 та Pawitan (2013), По всій ймовірності: Статистичне моделювання та умовивід з використанням ймовірності - тому, хоча терміни є синонімами у звичайному вживанні, зараз, здається, трохи пізно заперечувати.
Scortchi

12

Власне, масштабування максимальних оцінок імовірності для отримання неупереджених оцінок є стандартною процедурою в багатьох проблемах з оцінкою. Причиною тому є те, що mle є функцією достатньої статистики, і тому теорема Рао-Блеквелла, якщо ви можете знайти неупереджений оцінювач на основі достатньої статистики, то у вас є об'єктивний оцінювач мінімальної варіабельності.

Я знаю, що ваше питання є більш загальним, ніж це, але те, що я хочу наголосити, - це те, що ключові поняття тісно пов'язані з вірогідністю та на основі його оцінок. Ці оцінки можуть не бути об'єктивними в кінцевих зразках, але вони є асимптотичними, і, тим більше, вони асимптотично ефективні, тобто вони досягають межі дисперсії Cramer-Rao для неупереджених оцінювачів, що може не завжди стосуватися оцінок MOM.


11

Щоб відповісти на ваше запитання, чому MLE настільки популярний, врахуйте, що, хоча він може бути упередженим, він відповідає стандартним умовам. Крім того, він є асимптотично ефективним, тому, принаймні, для великих зразків, MLE, ймовірно, може зробити так само добре чи краще, як і будь-який інший оцінювач, який ви можете приготувати. Нарешті, MLE знайдений за простим рецептом; взяти функцію ймовірності та максимізувати її. У деяких випадках цей рецепт може бути важким для дотримання, але для більшості проблем це не так. Крім того, щойно ви отримаєте цю оцінку, ми можемо отримати асимптотичні стандартні помилки відразу, використовуючи інформацію Фішера. Без використання інформації Фішера, це часто насправді важко вивести оцінки похибки.

Ось чому оцінка MLE дуже часто є переходом до оцінювача (якщо ви не баєс); це просто втілити в життя і, ймовірно, буде так само добре, якщо не краще, ніж будь-що інше, вам потрібно зробити більше роботи для приготування їжі.


1
Чи можете ви, будь ласка, детально розказати, як вона порівнюється з методом моментів, оскільки це, здається, є важливою частиною ОП?
Антоні Пареллада

1
як зазначає Уаубер, оцінки ОМ також є упередженими, тому немає переваги "об'єктивності" для оцінювачів МОМ. Крім того, коли оцінки MOM та MLE не згодні, MLE має низький рівень MSE. Але ця відповідь насправді стосується того, чому MLE прагне бути дефолтом, а не прямим порівнянням з іншими методами.
Кліф АВ

2
@AntoniParellada Є цікава тема для порівняння MLE та MoM, stats.stackexchange.com/q/80380/28746
Papadopoulos

3

Я додам, що іноді (часто) ми використовуємо оцінювач MLE, тому що це ми отримали, навіть якщо в ідеальному світі це було б не те, що ми хочемо. (Я часто вважаю статистику такою, як інженерія, де ми використовуємо те, що ми отримали, а не те, що ми хочемо.) У багатьох випадках легко визначити і вирішити для MLE, а потім отримати значення, використовуючи ітеративний підхід. Враховуючи, що для даного параметра в даній ситуації може бути кращий оцінювач (для деякого значення "кращого"), але знаходження цього може зажадати бути дуже розумним; і коли ви зробите розумним, у вас залишається лише кращий оцінювач для цієї конкретної проблеми.


1
З цікавості, що є прикладом того, чого (в ідеальному світі) ви хотіли б?
Glen_b -Встановити Моніку

2
@Glen_b: Данно. Незаангажована, найнижча дисперсія, легко обчислити у закритому вигляді? Коли ви вперше дізнаєтесь оцінювачів регресії найменших квадратів, життя здається простішим, ніж виявляється.
eac2222
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.