Чи завжди існує максимізатор для будь-якої проблеми з MLE?


23

Цікаво, чи завжди існує максимізатор для будь-якої проблеми з оцінкою ймовірності максимальної (log-)? Іншими словами, чи є деякий розподіл та деякі його параметри, для яких проблема MLE не має максимізатора?

Моє запитання випливає із твердження інженера, що функція витрат (вірогідність чи схожість на журнал, я не впевнений, що було призначено) у MLE завжди увігнута, і тому вона завжди має максимізатор.

Дякую та з повагою!


8
(+1) Ви впевнені, що у вашому питанні не існує якісь кваліфікації, які залишилися невстановленими? На сьогоднішній день твердження інженера є помилковим у багатьох різних способах, що майже важко знати, з чого почати. :)
кардинал

@cardinal: Я в основному записав те, що чув. Але я визнаю, що можу щось пропустити.
Тім

5
Контрприклад (опуклості): Нехай - iid N ( 0 , σ 2 ) . Хоча існує унікальний MLE, ні ймовірність, ні схожість на log не опуклі в σ 2 . X1,X2,,XnN(0,σ2)σ2
кардинал

3
Логістична регресія @Tim - це основний приклад, коли MLE не завжди існує. Крім того, для деяких функцій зв’язку ймовірність журналу не є увігнутою.

Відповіді:


30

Можливо, інженер мав на увазі канонічні експоненціальні сімейства: за їх природної параметризації простір параметрів є опуклим, а ймовірність журналу - увігнутою (див. Thm 1.6.3 в Математичній статистиці Bickel & Doksum , Том 1 ). Крім того, за деяких помірних технічних умов (в основному, що модель має бути "повний ранг", або рівнозначно, що природний параметр можна ідентифікувати), функція вірогідності журналу суворо увігнута, що означає, що існує унікальний максимізатор. (Дослідження 1.6.2 у тій самій довідці.) [Крім того, конспекти лекцій, цитовані @biostat, мають те саме.]

Зауважимо, що природна параметризація канонічної експоненціальної сім'ї зазвичай відрізняється від стандартної параметризації. Отже, хоча @cardinal зазначає, що ймовірність log для сімейства не опукла в σ 2 , вона буде увігнутою в природних параметрах, які η 1 = μ / σ 2 і η 2 = - 1 / σ 2 . N(μ,σ2)σ2η1=μ/σ2η2=-1/σ2


2
(+1) Приємна відповідь. Як я натякав у своїх коментарях до ОП, це відповідь, яку я сподівався опублікувати (навіть контрприклад був ретельно обраний з огляду на це). :)
кардинал

2
Чи можете ви це показати в багатовимірній гауссовій моделі?
Рой

6

Функція ймовірності часто досягає максимуму для оцінки параметра, що цікавить. Тим не менш, MLE колись не існує, як, наприклад, для розподілу суміші Гаусса або непараметричних функцій, що має більше ніж один пік (бі або багатомодальний). Я часто стикаюся з проблемою оцінки невідомих параметрів популяційної генетики, тобто швидкості рекомбінації, ефекту природного відбору.

Однією з причин також @cardinal зазначають, що це необмежений параметричний простір.

Більше того, я рекомендував би наступне статтю , див. Розділ 3 (щодо функції) та фіг.3. Однак є досить корисний і зручний документ інформація про про MLE.


3
Я думаю, що я повинен нерозуміти ваш наведений приклад. Які квадратичні функції мають більше одного піку?
кардинал

@cardinal: Дозвольте спробувати пояснити. Ви вказуєте на необмежений параметр - одна з причин того, що функція ймовірності не досягає максимуму навіть у простому прикладі нормального розподілу. Однак, з точки зору оптимізації, я вважаю, що існує популярна проблема локальних та глобальних максимумів. Я часто стикався з цією проблемою в генетиці популяції, оцінюючи показники рекомбінації. Більше того, дивіться цю статтю в розділі 3 (для функції) та на рис. 3. URL-адреса статті: citeseerx.ist.psu.edu/viewdoc/…
Біостат

Так ви кажете, що "квадратичні функції з більш ніж одним піком", можливо, є посиланням на, наприклад, модель Гауссової суміші? Якщо так, редагування, ймовірно, може усунути певну плутанину.
кардинал

Тепер він оновлюється.
Біостат

2
(+1) Для оновлення. Зауважимо, що в моделях суміші Гаусса загалом присутні як необмежена ймовірність, так і множинні локальні максимуми. Що ще гірше, імовірність стає необмеженою при особливо патологічних рішеннях. Загалом, кілька максимумів можуть бути не настільки поганими. У деяких випадках ці максимуми зближуються один з одним досить швидко, що вибір будь-якого з них все-таки може дати розумний (рівний, ефективний) оцінку параметра, що цікавить, асимптотично.
кардинал

3

Я визнаю, що я можу щось пропустити, але -

Якщо це проблема оцінки, і мета полягає в оцінці невідомого параметра, а параметр, як відомо, походить із якогось закритого та обмеженого набору, а функція ймовірності є безперервною, тоді для цього параметра повинно існувати значення, яке максимально збільшується функція ймовірності. Іншими словами, максимум повинен існувати. (Він не повинен бути унікальним, але принаймні один максимум повинен існувати. Не існує гарантії, що всі локальні максимуми будуть глобальними максимумами, але це не є необхідною умовою для існування максимуму.)

Я не знаю, чи завжди функція ймовірності повинна бути опуклою, але це не є необхідною умовою, щоб існувати максимум.

Якщо я щось пропустив, радий почути, що я пропускаю.


4
Якщо немає додаткових припущень, твердження щодо максимумів є помилковим. Наприклад, якщо простір параметрів закритий і обмежений і функція ймовірності в параметрах є безперервною , то повинен існувати максимум. За відсутності будь-якого з цих додаткових умов результат не повинен дотримуватися. Що стосується опуклості, то вона провалюється навіть у самих простих і поширених прикладах. :)
кардинал

2
(+1) Обмеженість простору параметрів не має навіть у багатьох простих випадках. Але для практичних цілей ми, як правило, знаємо, що наші параметри обмежені. :)
кардинал

3

Можливо, хтось знайде корисний наступний простий приклад.

Подумайте один раз перевернути монету. Дозволяєθпозначають ймовірність голів. Якщо відомо, що монета може підіймати або голови, або хвостиθ(0,1). З моменту набору(0,1)відкрито, простір параметрів не є компактним. Ймовірність дляθ дається

{θголів1-θхвости.
Ні в одному випадку не існує максимуму для θ на (0,1).
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.