Скільки обчислення необхідно для розуміння максимальної оцінки ймовірності?


11

Я намагаюся скласти план навчання для вивчення ПНЖ. Для цього я намагаюся розібратися, який мінімальний рівень обчислення, необхідний для розуміння MLE.

Чи достатньо зрозуміти основи обчислення (тобто знайти мінімум та максимум функцій), щоб зрозуміти MLE?


2
Як завжди, це залежить . Якщо ви лише намагаєтесь зрозуміти основи, то, коли ви зможете знайти екстремальність функцій, ви отримаєте справедливий шлях (хоча у багатьох практичних випадках MLE, L є числом чисельно, і тоді вам потрібні ще деякі навички як деякі основні числення).
Glen_b -Встановити Моніку

Дякую. Чи можете ви пояснити випадок, про який ви згадали, детальніше? Це звучить цікаво.
histelheim

Гаразд, але тепер я повинен зробити це відповіддю. Зачекайся.
Glen_b -Встановити Моніку

Відповіді:


20

Щоб розширити свій коментар - це залежить. Якщо ви лише намагаєтесь зрозуміти основи, то, якщо ви зможете знайти екстремальність функцій, ви отримаєте справедливий шлях (хоча у багатьох практичних випадках MLE, ймовірність максимально збільшується, і в цьому випадку вам потрібні інші навички, а також деякі основне числення).

Я залишу осторонь приємні прості випадки, коли ви отримуєте явні алгебраїчні рішення. Незважаючи на це, обчислення часто дуже корисне.

Я візьму на себе незалежність протягом усього часу. Візьмемо найпростіший можливий випадок оптимізації з 1 параметром. Спочатку ми розглянемо випадок, коли ми можемо взяти похідні та відокремити функцію параметра та статистику.

Розглянемо щільність Gamma(α,1)

fX(x;α)=1Γ(α)xα1exp(x);x>0;α>0

Тоді для вибірки розміру n ймовірність така

L(α;x)=i=1nfX(xi;α)

і тому ймовірність журналу дорівнює

l(α;x)=i=1nlnfX(xi;α)=i=1nln(1Γ(α)xiα1exp(xi))
=i=1nlnΓ(α)+(α1)lnxixi
=nlnΓ(α)+(α1)Sxnx¯
деSx=i=1nlnxi . Беручи похідні,

ddαl(α;x)=ddα(nlnΓ(α)+(α1)Sxnx¯)
=nΓ(α)Γ(α)+Sx
=nψ(α)+Sx

Так що, якщо ми встановлюємо , що до нуля і спробувати вирішити для альфа , ми можемо отримати цю: ψ ( α ) = LN G ( х )α^

ψ(α^)=lnG(x)

ψ()G()

α^

ψ(α^)=g

g=lnG(x)

Це не має рішення з точки зору елементарних функцій, воно повинно обчислюватися чисельно; принаймні, нам вдалося отримати функцію параметра з одного боку та функцію даних з іншого. Існують різні алгоритми знаходження нуля, які можуть бути використані, якщо у вас немає явного способу вирішення рівняння (навіть якщо ви не маєте похідних, наприклад, є бінарний розділ).

f(x;μ)=14sech2(xμ2).
μ

θ

fX(x;θ)=1π(1+(xθ)2).

Загалом вірогідність тут не має унікального локального максимуму, а декількох локальних максимумів. Якщо ви виявили на локальний максимум, може бути інший, більше одного в іншому місці. (Іноді люди зосереджуються на визначенні локального максимуму, найближчого до медіани, або якогось такого.)

(0,θ)

В інших випадках простір параметрів може бути дискретним.

Іноді пошук максимуму може бути дуже причетним.

І це лише вибірка проблем з одним параметром. Коли у вас є кілька параметрів, речі знову активізуються.


4

RpR

Деякий засіб з логарифмами, безумовно, буде корисним, оскільки максимізувати логарифм ймовірності зазвичай набагато простіше, ніж максимізувати саму ймовірність.

RpR

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.