Приклад максимальної оцінки після


11

Я читав про оцінку максимальної ймовірності та максимальну післяорієнтовану оцінку, і поки що я зустрічав конкретні приклади лише з максимальною оцінкою ймовірності. Я знайшов декілька абстрактних прикладів максимальної оцінки після, але нічого конкретного з цифрами: S

Це може бути дуже непосильним, працюючи лише з абстрактними змінними та функціями, і щоб не потонути в цій абстрактності, приємно час від часу пов'язувати речі з реальним світом. Але звичайно, це лише моє (і деякі інші народи) спостереження :)

Тому чи міг би хтось надати мені простий, але конкретний приклад оцінки Максимум Постеріорі з цифрами на ньому? Це б дуже допомогло :)

Дякую!

Я спочатку опублікував це питання в MSE, але не зміг отримати відповідь там:

/math/449386/example-of-maximum-a-posteriori-estimation

Я дотримувався наведених тут інструкцій щодо перехресного опублікування:

http://meta.math.stackexchange.com/questions/5028/how-do-i-move-a-post-to-another-forum-like-cv-stats

Відповіді:


6

1-й приклад

Типовий випадок - теги в контексті обробки природних мов. Дивіться тут для детального пояснення. Ідея полягає в основному в змозі визначити лексичну категорію слова в реченні (це іменник, прикметник, ...). Основна ідея полягає в тому, що у вас є модель вашої мови, що складається з прихованої моделі маркова ( HMM ). У цій моделі приховані стани відповідають лексичним категоріям, а спостережувані стани власне словам.

Відповідна графічна модель має форму,

графічна модель канонічної НММ

де являє собою послідовність слів у реченні, а х = ( х 1 , . . . , х N ) являє собою послідовність тегів.у=(у1,...,уN)х=(х1,...,хN)

Після навчання, мета - знайти правильну послідовність лексичних категорій, які відповідають заданому вхідному реченню. Це сформульовано як пошук послідовності тегів, які є найбільш сумісними / найімовірніше, були сформовані мовною моделлю, тобто

f(у)=аrгмаххYp(х)p(у|х)

2-й приклад

Власне, кращим прикладом може бути регресія. Не тільки тому, що це легше зрозуміти, а й тому, що чіткі розбіжності між максимальною ймовірністю (ML) та максимальною післярічкою (MAP) зрозумілими.

т

у(х;ш)=iшiϕi(х)
ϕ(х)ш

т=у(х;ш)+ϵ

p(т|ш)=N(т|у(х;ш))

Е(ш)=12н(тн-шТϕ(хн))2

що дає відоме рішення найменш квадратних помилок. Тепер, ML чутливий до шуму, і за певних обставин не стабільний. MAP дозволяє підібрати кращі рішення, встановлюючи обмеження на ваги. Наприклад, типовим випадком є ​​регресія хребта, де ви вимагаєте, щоб ваги мали якомога меншу норму,

Е(ш)=12н(тн-шТϕ(хн))2+λкшк2

N(ш|0,λ-1Я)

ш=аrгмiншp(ш;λ)p(т|ш;ϕ)

Зауважте, що у MAP ваги є не параметрами, як у ML, а випадковими змінними. Тим не менш, і ML та MAP - це точкові оцінки (вони повертають оптимальний набір ваг, а не розподіл оптимальних ваг).


+1 Привіт @juampa, дякую за вашу відповідь :) Але я все одно шукаю конкретніший приклад :)
jjepsuomi

Дякую ще раз @juampa. Як би ви тепер переходили до пошуку який мінімізує аргмін? Чи використовуєте ви градієнт чи якийсь ітеративний алгоритм, наприклад, метод Ньютона тощо? ш
jjepsuomi

1
О(н3)

f(у)=аrгмаххХp(х)p(у|х)
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.