Чи означає MLE завжди, що ми знаємо, що лежить в основі нашого PDF, і чи означає EM, що ми цього не робимо?


12

У мене є кілька простих концептуальних питань, які я хотів би уточнити стосовно MLE (Максимальна оцінка ймовірності), а також те, яке зв’язок воно має, якщо воно є, з EM (Максималізація очікування).

Як я розумію, якщо хтось каже "Ми використовували MLE", чи це автоматично означає, що вони мають чітку модель PDF-файлів своїх даних? Мені здається, що відповідь на це - так. По-іншому, якщо в будь-який час хтось скаже "MLE", справедливо запитати у них, який PDF вони передбачають. Це було б правильно?

Нарешті, щодо ЕМ, я розумію, що в ЕМ ми насправді не знаємо - чи не мусимо знати, основної PDF-даних наших даних. Це моє розуміння.

Дякую.


1
"М" в ЕМ означає максимальне ... ймовірність. Щоб записати ймовірність, нам потрібен PDF-файл. EM - це спосіб знаходження MLE за наявності в певному сенсі "неспостережних" (які заповнюються на етапі Е). Тобто для використання ЕМ вам потрібна чітка модель.
Glen_b -Встановіть Моніку

@Glen_b Дякую Gleb_b. Отже, 1) було б правильно сказати, що в EM, як і в MLE, ми завжди припускаємо якусь модель PDF-файлу даних "? Це означає, що якщо хтось каже" Ми використовували MLE / EM ", ми можемо справедливо запитати:" Що PDF-файли ви припускали: "Це буде правильною оцінкою? 2) Нарешті, що стосується ЕМ, я вважаю, що непомітні види, на які ви посилаєтесь, - це ймовірність конкретних PDF-файлів, що складають суміш, правильно? Дякую заздалегідь.
Creatron

Зауважте, що існують непараметричні методи максимальної ймовірності. Знайдіть Каплан-Мейєр.
soakley

Creatron - on (1) Зауважте, що EM - це алгоритм для обчислення MLE, з яким інакше було б важко впоратися. У будь-якому випадку я б задав дещо більш загальне запитання: "яка у вас модель?", Оскільки цілком можливо, що модель буде складнішою, ніж якийсь один pdf. Увімкнено (2) Алгоритм ЕМ не стосується лише сумішей; це більш загальне, ніж це.
Glen_b -Встановіть Моніку

Відповіді:


13

Метод MLE може бути застосований у випадках, коли хтось знає основну функціональну форму pdf (наприклад, це гауссова, або нормальна для журналу, експоненціальна чи будь-яка інша), але не основні параметри; наприклад, вони не знають значень та в pdf: або будь-який інший тип pdf, який вони передбачають. Завдання методу MLE полягає у виборі найкращих (тобто найбільш правдоподібних) значень для невідомих параметрів, враховуючи конкретні вимірювання даних які насправді спостерігали . Отже, щоб відповісти на ваше перше запитання, так, ви завжди в межах своїх прав запитати когось щоσ f ( x | μ , σ ) = 1μσх1,х2,х3,. . .

f(x|μ,σ)=12πσ2exp[(xμ)22σ2]
x1,x2,x3,...форма pdf, яку вони передбачають для максимальної оцінки ймовірності; Дійсно, оцінені значення параметрів, які вони вам кажуть, навіть не мають сенсу, якщо вони спочатку не передають цей контекст.

Як я вже бачив, алгоритм ЕМ застосовується раніше, це свого роду мета алгоритм, де деякі метадані відсутні, і ви також повинні це оцінити. Так, наприклад, можливо, у мене є pdf, який є сумішшю кількох гауссів, наприклад: поверхово, за винятком додавання параметра амплітуди , це схоже на попередню проблему, але що робити, якщо я сказав вам, що ми навіть не знаємо значення (тобто кількість режимів в гауссовій суміші) і ми хочемо підрахувати, що з вимірювань даних

f(x|A1,...,AN,μ1,...,μN,σ1,...σN)=k=1NAk2πσk2exp[(xμk)22σk2]
AkNx1,x2,x3,... теж?

У цьому випадку у вас виникає проблема, оскільки кожне можливе значення (це «мета» частина, про яку я нагадав вище) справді породжує іншу модель, в якомусь сенсі. Якщо , то у вас є модель з трьома параметрами ( , , ), тоді як якщо , то у вас є модель з шістьма параметрами ( , , , , , ). Найбільш оптимальні значення, які ви отримаєте для ( , , ) уNN=1A1μ1σ1N=2A1A2μ1μ2σ1σ2A1μ1σ1N=1Модель безпосередньо не може порівнюватися із значеннями найкращого пристосування, які ви отримуєте для тих самих параметрів у моделі , оскільки це різні моделі з різною кількістю ступенів свободи .N=2

Роль алгоритму EM є створення механізму для створення цих типів порівнянь ( як правило , шляхом накладення «складності штрафу» , який вважає за краще менші значення ) , так що ми можемо вибрати краще загальне значення для .NN

Отже, щоб відповісти на ваше первісне запитання, алгоритм ЕМ вимагає менш точної конкретизації форми pdf; можна сказати, що він розглядає цілий ряд альтернативних варіантів (наприклад, варіант, де , , і т.д.), але він все ще вимагає вказати щось про основну математичну форму цих варіантів ... Ви все ще повинні в певному сенсі вказати "сімейство" можливих pdfs, навіть якщо ви дозволяєте алгоритму вирішувати для вас, який "член" сім'ї забезпечує найкраще відповідність даним.N=1N=2N=3


Деякі наступні віджимання на вашому Excellent відповідь @stachyra: (1): друге рівняння (з підсумовуванням) - Є чи це PDF вашої суміші? (Що означає, що ?) (2): Що стосується згаданого тут алгоритму ЕМ - трохи заплутане - це значення яке вводиться спочатку як вхід до ЕМ, чи це щось, що ЕМ виплюне як вихід у підсумку? NAk=1N
Creatron

(3) Знову для ЕМ, коли ви говорите "вкажіть родину можливих PDF-файлів" для ЕМ, чи це означає, що ми даємо йому "можливості" для роботи, наприклад, "Ці дані складаються з двох гаусів і одного пуассона ", або" Ці дані створені з 3-х PDF-файлів чи 1 гаусса "тощо? Це заплутано, оскільки це означає, що ми задаємо , що я приймаю з вашого посту - це щось, що нам дає ЕМ ...N
Creatron

1) Так, це pdf моєї суміші, і так, . 2) На практиці ви зазвичай даєте значення min / max для алгоритму, який розглядається, і він перебирає всі дозволені значення, щоб знайти найкраще. 3) У більшості випадків різні можливості, які ви намагаєтесь вибрати, - це лише різні можливі значення ; наприклад, " добре підходить, але ще краще". Якщо ви хочете розглянути альтернативи, які включають більш різнорідний набір функціональних форм, в принципі це теж можливо, але складніше реалізувати на практиці. N N N = 4 N = 5Ak=1NNN=4N=5
stachyra

Дякую вам стачиру. Останнє запитання, PDF-суміш даних із вихідних даних (наведений у вашому другому рівнянні, складеному із зваженої суми PDF-файлів), НЕ такий же, як спільний PDF всіх зразків наших даних, що є добутком їхніх PDF-файлів, правильно ? (Припустимо, зразки даних є IID).
Креарон

Ні, зовсім не - це дві абсолютно різні речі. Спільний pdf, який ви описуєте, звучить набагато більше, ніж форма функції ймовірності, що використовується в MLE. Тут може бути корисний підручник. Для MLE мені подобається глава 10 "Зменшення даних та аналіз помилок для фізичних наук" Філіпа Р. Бевінгтона та Д. Кіта Робінсона, або розділ 6.1 "Статистичний аналіз даних" Глена Коуана. Для конкретного прикладу, як зробити один конкретний тип впровадження ЕМ, мені подобається це пояснення, розділи 2
stachyra

2

MLE вимагає знання принаймні граничних розподілів. Використовуючи MLE, ми зазвичай оцінюємо параметри спільного розподілу, роблячи припущення про iid, потім розподіляючи спільний розподіл як добуток маргіналів, про які ми знаємо. Існують варіанти, але це ідея в більшості випадків. Тож MLE - параметричний метод.

Алгоритм ЕМ - це метод максимізації функцій вірогідності, що з'являються як частина алгоритму MLE. Його часто (як правило?) Використовують для чисельних рішень.

Щоразу, коли ми використовуємо MLE, нам потрібні принаймні граничні розподіли та певне припущення про те, як суглоб пов’язаний з маргіналами (незалежність тощо). Тому обидва методи покладаються на знання розподілів.


Дякуємо @Charles, що має сенс. Що це означає тоді, коли люди говорять про "непараметричний MLE". Ця фраза на перший погляд не має сенсу. MLE завжди оцінює параметр розподілу, правда?
Creatron

Вони можуть говорити про ELE (Емпірична оцінка ймовірності). Я ніколи його не використовував; Спробую пояснити, якщо потрібно. Інакше я не впевнений.
Чарльз Пехліванян
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.