Визначник матриці інформаційної матриці Фішера для надпараметризованої моделі


10

Розглянемо випадкову змінну Бернуллі з параметром (ймовірність успіху). Функція ймовірності та інформація Фішера ( матриця ):Х{0,1}θ1×1

L1(θ;Х)=p(Х|θ)=θХ(1-θ)1-ХЯ1(θ)=detЯ1(θ)=1θ(1-θ)

Тепер розглянемо " надпараметризовану " версію з двома параметрами: ймовірність успіху θ1 та ймовірність відмови θ0 . (Зверніть увагу, що θ1+θ0=1 , і це обмеження означає, що один із параметрів є зайвим.) У цьому випадку функцією ймовірності та інформаційною матрицею Фішера (FIM) є:

L2(θ1,θ0;Х)=p(Х|θ1,θ0)=θ1Хθ01-ХЯ2(θ1,θ0)=(1θ1001θ0)detЯ2(θ)=1θ1θ0=1θ1(1-θ1)

Зауважте, що детермінанти цих двох FIM є однаковими. Крім того, ця властивість поширюється на більш загальний випадок категоричних моделей (тобто більше двох станів). Здається, він також поширюється на лінійні журнали моделі з різними підмножинами параметрів, обмежених нулем; у цьому випадку додатковий "надлишковий" параметр відповідає функції розділення журналу, і еквівалентність двох визначників FIM може бути показана на основі доповнення Шура до більшого FIM. (Насправді, для лінійних лінійних моделей менший FIM - лише доповнення Шура до більшого FIM.)

Чи може хтось пояснити, чи поширюється ця властивість на більший набір параметричних моделей (наприклад, на всі експоненціальні сімейства), дозволяючи вивести детермінанти FIM на основі такого "розширеного" набору параметрів? Тобто припустимо будь-яку задану статистичну модель з параметрами, які лежать на -вимірному багатообразові, вбудованому в -вимірний простір. Тепер, якщо ми розширимо набір параметрів, щоб включити ще один вимір (який повністю обмежений на основі інших) і обчислити параметри, засновані на FIM , ми завжди отримаємо той самий детермінант, що і на основі оригіналу (незалежних) параметрів? Крім того, як пов’язані ці два FIM?нн(н+1)(н+1)н

Причиною, що я задаю це питання, є те, що FIM з додатковим параметром часто видається простішим. Моя перша думка полягає в тому, що це взагалі не повинно працювати. FIM включає обчислення часткових похідних вірогідності журналу wrt кожного параметра. Ці часткові похідні припускають, що в той час, коли параметр, про який йде мова, змінюється, всі інші параметри залишаються постійними, що не відповідає дійсності, коли ми включаємо додатковий (обмежений) параметр. У цьому випадку мені здається, що часткові похідні більше не діють, оскільки ми не можемо вважати, що інші параметри є постійними; однак я ще не знайшов доказів, що це насправді проблема. (Якщо часткові похідні є проблематичними у випадках із залежними параметрами, це загальні похідні(н+1)×(н+1)потрібен замість цього? Я ще не бачив приклад обчислення FIM сумарними похідними, але, можливо, це рішення ...)

Єдиний приклад, який я міг знайти в Інтернеті, який обчислює FIM на основі такого "розширеного" набору параметрів, є наступним: ці примітки містять приклад категоричного розподілу, обчислюючи необхідні часткові похідні, як зазвичай (наприклад, як би кожен параметр не є незалежним , навіть якщо серед параметрів існує обмеження).


1
Хороше питання! Я думаю, що двопараметрична специфікація випадкової величини Бернуллі є досить невдалим прикладом, тому що без обмеження, більше не буде щільністю. Чи можете ви відтворити спостереження, наприклад, для вигнутої експоненціальної родини? p(Х|θ1,θ0)=θ1Хθ01-Х
Хашаа

@Khashaa Я припускаю, що обмеження застосовується у двопараметричному випадку (той, який ви згадали), тому функція ймовірності все одно буде дійсною щільністю. Також так, я можу відтворити це спостереження, наприклад, для лінійних лінійних моделей з різними підмножинами параметрів, обмежених нулем; у цьому випадку параметр "резервного" відповідає функції розділу журналу. θ1+θ2=1
Тайлер Стрітер

1
Як щодо ? N(мк,мк2)
Хашаа

Відповіді:


4

Для звичайного інформаційна матриця Для криволінійних нормальнихОтже, ваше зауваження, що визначальні рівні рівні, не є універсальними, але це не вся історія.ХN(мк,σ2)

Я1=(1σ20012σ4)
ХN(мк,мк2)
Я2=3мк2.

Як правило, якщо є інформаційною матрицею під репараметризацією то не важко побачити це інформаційна матриця для вихідних параметрів - де - якобіан перетворення .Яг

г(θ)=(г1(θ),...,гк(θ))',
Я(θ)=Г'Яг(г(θ))Г
Гг=г(θ)

Для прикладу Бернуллі і . Отже, якобіан є і, таким чином, (θ0,θ1)=(p,1-p)г(p)=(p,1-p)(1,-1)'

Я(p)=(1-1)(1p0011-p)(1-1)=1p(1-p)

Для зігнутого звичайного прикладу

Я2=(12мк)(1мк20012мк4)(12мк)=3мк2.

Я думаю, тепер ви можете легко співвіднести детермінанти.

Слідкуйте за коментарем

Якщо я вас правильно зрозумів, FIM діє до тих пір, поки ви змістовно розширите параметри: ймовірність нової параметризації повинна бути дійсною щільністю. Отже, я назвав приклад Бернуллі нещасливим.

Я думаю, що надане вами посилання має серйозний недолік у виведенні FIM для категоричних змінних, оскільки у нас є та . Очікування негативного Гессіана дає , але не для коваріації балів векторів. Якщо знехтувати обмеженнями, рівність інформаційної матриці не виконується. Е(хi2)=θi(1-θi)θiЕ(хiхj)=θiθj0гiаг{1/θi}


Дякуємо, що згадали про підхід до перетворення якобійців та прості, зрозумілі приклади. Чи можете ви (чи хтось інший) прокоментувати таке питання, яке мене все ще хвилює: коли ми розширюємо набір параметрів на один вимір, як це ми робимо тут, ми вводимо обмеження серед параметрів, таких як будь-які часткові похідні (як того вимагає FIM) повинен бути недійсним, оскільки зараз, коли ми змінюємо один параметр, інші більше не є постійними. Тож чи FIM дійсний навіть для розширеного набору параметрів, враховуючи, що часткові похідні є недійсними через додаткове обмеження?
Тайлер Стрітер

@TylerStreeter Я оновив свою відповідь, щоб вирішити вашу проблему.
Хашаа

3

Здається, що результат справедливий для певного виду співвідношення між параметрами.

Не претендуючи на повну спільність для наведених нижче результатів, я дотримуюся справи "один-два параметри". Позначимог(θ0,θ1)=0неявне рівняння, яке виражає взаємозв'язок, який повинен утримуватися між двома параметрами. Тоді "правильне розширене", "двопараметричне" ймовірність журналу (не те, що обчислює ОП - ми приїдемо туди)

Lе=L(θ0,θ1)+λг(θ0,θ1)
рівнозначна справжній ймовірності L, оскільки г(θ0,θ1)=0, (λ є множником), і ми можемо розглядати два параметри як незалежні, тоді як ми розрізняємо.

Використовуючи підписники для позначення похідних щодо параметрів (один похідний індекс індексу, два похідні другого індексу), визначником Гессіана правильної розширеної ймовірності журналу буде

(1)DН(Lе)=[L00+λг00][L11+λг11]-[L01+λг01]2=DН(L)

Що замість цього робить ОП?

Він вважає неправильною ймовірність L(θ0,θ1) "ігнорування" співвідношення між двома параметрами та без урахування обмежень г(θ0,θ1). Потім він проходить з диференціацією і отримує

(2)DН(L)=L00L11-[L01]2

Видно, що (2) взагалі не дорівнює (1).

Але якщо г00=г11=г00=0, тоді

(1)DН(Lе)=L00L11-[L01]2=DН(L)=DН(L)

Отже, якщо співвідношення між фактичним параметром і надлишковим параметром є таким, що другі часткові похідні неявної функції, що їх пов'язує, дорівнюють нулю , то в принципі неправильний підхід закінчується "правильним".

Що стосується справи Бернуллі, то насправді є

г(θ0,θ1)=θ0+θ1-1г00=г11=г01=0

ДОПОВНЕННЯ
Щоб відповісти на питання @Khashaa і показати механіку тут ми розглянемо вірогідність зазначеної дублюючим параметра, але при обмеженні , що посилання надлишкового параметра з істинним. Те, що ми робимо з імовірностями журналів, - це їх максимальне збільшення, тому тут ми маємо випадок обмеженої максимізації. Припустимо зразок розмірун,:

максLн(θ0,θ1)=lnθ0i=1нхi+(н-i=1нхi)lnθ1,с.т.θ1=1-θ0

У цій проблемі є лангренгеєць (що я неофіційно я назвав "правильною розширеною ймовірністю"),

Lе=lnθ0i=1нхi+(н-i=1нхi)lnθ1+λ(θ1-1+θ0)

Умови першого порядку для максимуму такі

i=1нхiθ0+λ=0,н-i=1нхiθ1+λ0=0

для якого ми отримуємо відношення

i=1нхiθ0=н-i=1нхiθ1θ1i=1нхi=(н-i=1нхi)θ0

використовуючи обмеження, згідно з якими вищезазначені дійсні, θ1=1-θ0 ми отримуємо

(1-θ0)i=1нхi=(н-i=1нхi)θ0

i=1нхi=нθ0θ^0=1нi=1нхi

як слід.

Більше того, оскільки обмеження лінійне у всіх параметрах, його другі похідні будуть дорівнювати нулю. Це відображається в тому, що в первинних похідних лагранжа, мультиплікатораλ"стоїть на самоті", і це буде ліквідовано, коли ми візьмемо другі похідні лагранжа. Що в свою чергу призведе нас до гессіана, детермінант якого буде дорівнювати (одновимірній) другій похідній оригінальній ймовірності однопараметричного журналу, після накладення також обмеження (що і робить ОП). Тоді прийняття від’ємника очікуваного значення в обох випадках не змінює цю математичну еквівалентність, і ми приходимо до відношення «одновимірна інформація про Фішера = детермінант двовимірної інформації про Фішера». Зараз дано що обмеження є лінійним у всіх параметрах, ОП отримує той самий результат (на рівні другого похідного), не вводячи обмеження з множником у функцію, що має бути максимальною, тому що на другому рівні похідної наявність / ефект обмеження зникає в такому випадку.

Все це стосується числення, а не статистичних понять.


Я, здається, не можу слідувати вашій логіці. Чи можете ви поясніть, чому подібний до Лагранжа?Lевважається "правильним розширеним", "двопараметричним" імовірністю журналу? Також гессіян для мене абсолютно загадковий. Чи обчислюєте ви спостережувану матрицю інформації?
Хашаа

@Khashaa Встановлена ​​термінологія, що "Гессіан" є матрицею інших похідних багатовимірної функції.
Алекос Пападопулос

Було б корисно, якби нинішні люди, що опублікували тут, опублікували відповідь - адже конкретний приклад ОП існує - і вимагає пояснення.
Алекос Пападопулос

Вибачте, якщо моє запитання було незрозумілим. Моє запитання стосувалося того, як ви пов’язали Гессіана з інформаційною матрицею, оскільки я не бачив жодних очікувань, що діють на ньому, і результат здався спостережуваною інформаційною матрицею. Крім того, чи можете ви пояснити, чомуLечи правильна логічність? Я думаю, ви використовуєте якийсь принциповий метод оцінки обмеженої ймовірності, але я не розумію, як це працює.
Хашаа

@Khashaa Я додав експозицію, використовуючи приклад ОП.
Алекос Пападопулос
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.