Чому MLE має сенс, враховуючи, що ймовірність окремої вибірки дорівнює 0?


13

Це якась дивна думка, яку я мав під час перегляду старої статистики, і я чомусь не можу думати про відповідь.

Безперервний PDF нам повідомляє про щільність спостереження значень у будь-якому заданому діапазоні. А саме, якщо, наприклад, XN(μ,σ2) , то ймовірність того, що реалізація падає між a і b , просто abϕ(x)dx де ϕ - щільність стандартної норми.

Коли ми думаємо про те, щоб зробити оцінку параметра MLE параметра, скажімо, μ , ми запишемо щільність спільних, скажімо, N випадкових величин X1..XN і диференціюйте wrt-вірогідність wrt на μ , встановіть рівну 0 і вирішіть для μ . Інтерпретація часто дається "з урахуванням даних, який параметр робить цю функцію щільності найбільш правдоподібною".

Частина, яка мене клопоче, така: у нас щільність N rv, і ймовірність того, що ми отримаємо певну реалізацію, скажімо, наш зразок, дорівнює рівно 0. Чому навіть є сенс максимізувати щільність суглобів, враховуючи наші дані ( оскільки знову вірогідність спостереження за нашим фактичним зразком рівно 0)?

Єдиною раціоналізацією, яку я можу придумати, є те, що ми хочемо, щоб PDF-файл був максимально можливим навколо нашого спостережуваного зразка, щоб інтеграл у регіоні (а отже, ймовірність спостереження за даними у цьому регіоні) був найвищим.


1
З цієї ж причини ми використовуємо щільність ймовірності stats.stackexchange.com/q/4220/35989
Tim

Я розумію (думаю), чому є сенс використовувати щільність. Я не розумію, чому є сенс максимізувати щільність залежно від спостереження за зразком, який має 0 ймовірностей виникнення.
Олексій

2
Оскільки щільності ймовірності говорять нам про те, які значення відносно більше, ніж інші.
Тім

Якщо у вас є час повністю відповісти на питання, я думаю, це було б корисніше для мене та наступної людини.
Олексій

Тому що, на щастя, ймовірність не є ймовірністю!
АдамО

Відповіді:


18

Pθ(X=x)xδδ

Aldrich, J. (1997) Statistics Science12, 162-176

δ

Незважаючи на те, що він підпадав під деномінацію "найбільш ймовірне значення" і використовував принцип зворотної ймовірності (байєсівський умовивід) з рівним попереднім, Карл Фрідріх Гаус вже отримав у 1809 році максимальний оцінювач вірогідності параметру дисперсії нормального розподілу. Халд (1999) згадує кілька інших випадків оцінки максимальної ймовірності перед документом Фішера 1912 року, який встановлював загальний принцип.

(x1,,xn)

1ni=1nlogfθ(xi)
E[logfθ(X)]=logfθ(x)f0(x)dx
f0θθ
logf0(x)fθ(x)f0(x)dx=logf0(x)f0(x)dxconstantin θlogfθ(x)f0(x)dx
fθ


Дякую за відповідь. Чи можете ви трохи розширити аргумент KL? Я не бачу, як це відбувається одразу.
Олексій
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.