Чи є норма MLE асимптотично нормальною та ефективною, навіть якщо модель не відповідає дійсності?


13

Приміщення: це може бути дурним питанням. Я знаю лише твердження про асимптотичні властивості MLE, але я ніколи не вивчав докази. Якби я це зробив, можливо, я б не задавав цих питань, або, можливо, я зрозумів би, що ці питання не мають сенсу ... тому, будь ласка, просто на мене :)

Я часто бачив твердження, які говорять про те, що оцінка MLE параметрів моделі є асимптотично нормальним і ефективним. Заява зазвичай пишеться як

Nθ^dN(θ0,I(θ0)1) якN

де - кількість зразків, - інформація про Фішера, а - справжнє значення параметра (вектор) . Тепер, оскільки є посилання на справжню модель, чи означає це, що результат не буде мати значення, якщо модель не відповідає дійсності?NIθ0

Приклад: припустимо, я моделюю потужність від вітрової турбіни як функцію швидкості вітру плюс додаткового гауссового шумуPV

P=β0+β1V+β2V2+ϵ

Я знаю, що модель помилкова, принаймні з двох причин: 1) дійсно пропорційна третій потужності і 2) помилка не є додатковою, тому що я знехтував іншими прогнозами, які не співвідносяться зі швидкістю вітру (я також знаю що має бути 0, оскільки при 0 швидкості вітру не виробляється енергія, але це не актуально тут). Тепер, припустимо, я маю нескінченну базу даних про потужність і швидкість вітру від моєї вітрогенератора. Я можу намалювати стільки бажаних зразків, будь-якого розміру. Припустимо, я малюю 1000 зразків, кожен розміром 100, і обчислюю \ hat {\ boldsymbol {\ beta}} _ {100} , оцінка MLE \ boldsymbol {\ beta} = (\ beta_0, \ beta_1, \ beta_2)V β 0PVβ0β^100β=(β0,β1,β2)(що за моєю моделлю було б просто оцінкою OLS). Таким чином, у мене є 1000 зразків з розподілу β^100 . Я можу повторити вправу з N=500,1000,1500, . Як N , чи має розподіл β^N бути асимптотично нормальним, із заявленим середнім значенням та дисперсією? Або той факт, що модель неправильна, недійсний цей результат?

Причина, про яку я питаю, полягає в тому, що рідко (якщо і взагалі) модель є "справжньою" в додатках. Якщо асимптотичні властивості MLE втрачаються, коли модель не відповідає дійсності, можливо, має сенс використовувати різні принципи оцінювання, які, хоча і менш потужні в налаштуваннях, де модель правильна, в інших випадках можуть працювати краще, ніж MLE.

EDIT : в коментарях зазначалося, що поняття справжньої моделі може бути проблематичним. Я мав на увазі таке визначення: з урахуванням сімейства моделей позначеного вектором параметрів , для кожної моделі в сім'ї завжди можна написати fθ(x)θ

Y=fθ(X)+ϵ

просто визначивши як . Однак, як правило, помилка не буде ортогональною для , має середнє значення 0, і не обов'язково передбачатиметься розподіл при виведенні моделі. Якщо існує значення таке, що має ці два властивості, а також припущений розподіл, я б сказав, що модель є правдою. Я думаю, що це безпосередньо пов'язано з тим, що , оскільки термін помилки при розкладанніϵYfθ(X)Xθ0ϵfθ0(X)=E[Y|X]

Y=E[Y|X]+ϵ

має дві властивості, згадані вище.


3
Оцінка MLE часто асимптотично нормальна, навіть якщо модель не відповідає дійсності, наприклад, вона може бути узгодженою для "найменш помилкових" значень параметрів. Але в таких випадках буде важко показати ефективність чи інші властивості оптимальності.
kjetil b halvorsen

1
Перш ніж ефективність, слід переглянути послідовність. У сценарії, коли істини немає у вашому просторі пошуку, нам потрібно інше визначення послідовності таким чином: d (P *, P), де d - розбіжність, P * є найближчою моделлю з точки зору d, а P - істина. Наприклад, коли d - дивергенція KL (що MLE мінімізує), наприклад, відомо, що байєсівські процедури є непослідовними (не може дійти до найближчої моделі), якщо модель не опукла. Тому я б припускав, що MLE також буде непослідовним. Тому ефективність стає погано визначеною. homepage.tudelft.nl/19j49/benelearn/papers/Paper_Grunwald.pdf
Cagdas Ozgenc

1
@Cagdas Ozgenc: У багатьох випадках (наприклад, логістична регресія) MLE все ще відповідає "найменш помилковим" параметрам. Чи є у вас посилання на вашу заяву про невідповідність справі, що не є випуклою? Були б дуже зацікавлені? (Вірогідність функції логістичної регресії є опуклою)
kjetil b halvorsen

@kjetilbhalvorsen homepages.cwi.nl/~pdg/ftp/inconsistency.pdf Це над головою, але це те, що я розумію. Якщо моє розуміння неправдиве, виправте мене. Зрештою, я просто любитель.
Cagdas Ozgenc

4
Я думаю, що ми потрапляємо в біду, коли використовуємо такі терміни, як "модель справжня" або "найменш помилкова". У роботі з моделями на практиці вони всі приблизні. Якщо ми робимо певні припущення, ми можемо використовувати математику для показу статистичних властивостей. Тут завжди існує конфлікт між математикою ймовірності та практичним аналізом даних.
Майкл Р. Черник

Відповіді:


4

Я не вірю, що на це питання є однозначна відповідь.

Коли ми розглядаємо можливу неправильну розподіл при застосуванні максимальної оцінки ймовірності, ми отримуємо те, що називається оцінкою «Квазі-Максимальна ймовірність» (QMLE). У деяких випадках QMLE одночасно і послідовно, і асимптотично.

Те, що він втрачає з певністю, - це асимптотична ефективність. Це тому, що асимптотична дисперсія (це величина, яка має асимптотичний розподіл, а не просто ), у всіх випадках,n(θ^θ)θ^

(1)Avar[n(θ^θ)]=plim([H^]1[S^S^T][H^]1)

де - матриця Гессія вірогідності логарифмів і - градієнт, а шапка вказує вибіркові оцінки.HS

Тепер, якщо ми маємо правильну специфікацію, ми отримуємо, по-перше, це

(2)Avar[n(θ^θ)]=(E[H0])1E[S0S0T](E[H0])1

де підрозділ " " позначає оцінку за справжніми параметрами (і зауважимо, що середній термін - це визначення інформації Фішера), а по-друге, що " рівність інформаційної матриці " має місце і говорить, що , що означає, що асимптотична дисперсія нарешті буде0E[H0]=E[S0S0T]

(3)Avar[n(θ^θ)]=(E[H0])1

що є зворотною інформацією про Фішера.

Але якщо ми маємо неправильну специфікацію, вираз не призводить до вираження (тому що перша та друга похідні в були виведені на основі неправильної ймовірності). Це в свою чергу означає, що нерівність інформаційної матриці не дотримується, що ми не закінчуємося в виразі , і що (Q) MLE не досягає повної асимптотичної ефективності.(1)(2)(1)(3)


Avar - асимптотична дисперсія випадкової величини таplim означає збіжність у ймовірності, правда? Ваша відповідь здається дуже цікавою, але я не розумію, що у вашому контексті. Я мав на увазі випадок, коли потрібного значення просто не існує: дивіться мій приклад вітрогенератора, де незалежно від значення , немає значення, яке робить модель правильною, тому що немає терміна та тому, що інші предиктори, корельовані з , відсутні. Що би означало в цьому контексті? θθβ=(β0,β1,β2)β3Vθ
DeltaIV

вибачте, перше видання мого коментаря було незрозумілим: тепер моя думка повинна бути зрозумілою. Іншими словами, якщо немає "істинного" , що ми повинні інтерпретувати як у виразі ? θθn(θ^θ)
DeltaIV

1
@DeltaIV Нуль. Чи "QMLE" це "зловить"? Це залежить від того, буде це послідовно чи ні - і знову, на це питання немає однозначної відповіді
Алекос Пападопулос

1
Я зрозумів. Таким чином, QMLE (якщо він відповідає) повинен збігатися з : я б подумав, що він збіжиться до деякого "найменш помилкового" значення параметра, як запропонував @kjetilbhalvorsen. Чи можете ви запропонувати будь-які посилання на QMLE та рівняння, які ви написали? Спасибіθ=0
DeltaIV

1
@DeltaIV Я б запропонував експозицію в Hayashi ch. 7 щодо оцінювачів Extremum, що стосується послідовності, нормальності MLE тощо. Що стосується QMLE, то тема досить широка. Наприклад, під "QMLE" ми можемо також мати ситуації, коли ми з самого початку визнаємо, що параметри, які ми оцінюємо, можуть не мати чіткого зв'язку з будь-якими "справжніми параметрами" (але вправа все ще діє як наближення)., і таким чином отримують "найменш помилковий" вектор, як було запропоновано.
Алекос Пападопулос
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.