Що це за інформація про Фішера?


29

Припустимо, у нас є випадкова величина . Якщо були істинним параметром, функцію вірогідності слід максимізувати, а похідну дорівнює нулю. Це основний принцип, що стоїть за оцінкою максимальної ймовірності.Xf(x|θ)θ0

Як я розумію, інформація про Фішера визначається як

I(θ)=E[(θf(X|θ))2]

Таким чином, якщо - істинний параметр, . Але якщо це не є істинним параметром, тоді у нас буде більша кількість інформації про Фішера.θ0I(θ)=0θ0

мої запитання

  1. Чи вимірює інформація про Фішера "помилку" даного MLE? Іншими словами, чи не існування позитивної інформації про Фішера означає, що мій MLE не може бути ідеальним?
  2. Чим це визначення поняття "інформація" відрізняється від того, яке використовував Шеннон? Чому ми називаємо це інформацією?

Чому ви пишете це ? Очікування перевищує значення розподілених так, ніби вони прийшли з вашого розподілу з параметром . EθXθ
Ніл G

3
Також не дорівнює нулю при істинному параметрі. I(θ)
Ніл Г

E (S) дорівнює нулю (тобто: очікування функції рахунку), але, як писав Ніл G - інформація про рибалки (V (S)) не є (як правило) нулем.
Тал Галілі

Відповіді:


15

Намагаючись доповнити інші відповіді ... Яка інформація - це інформація Фішера? Почніть з функції loglikelilie як функція для , простір параметрів. Припускаючи деякі умови регулярності, які ми тут не обговорюємо, у нас є (ми будемо писати похідні щодо параметра як крапки як тут). Дисперсія - інформація про Фішера θ θ Θ E

(θ)=logf(x;θ)
θθΘI(θ)=Eθ( ˙ (θ))2=-Eθ ¨ (θ)θ ˙ (θ)=0 ˙ (θ)Eθ(θ)=Eθ˙(θ)=0
I(θ)=Eθ(˙(θ))2=Eθ¨(θ)
остання формула, що показує, що це (негативна) кривизна функції логопедичності. Часто знаходять оцінку максимальної ймовірності (мле) , вирішуючи рівняння ймовірності коли інформація Фішера як дисперсія балу велика, тоді рішення цього рівняння буде дуже чутливим до даних, даючи надію на високу точність молока. Це підтверджено принаймні асимптотично, асимптотична дисперсія молока є зворотною інформацією Фішера.θ˙(θ)=0˙(θ)

Як ми можемо трактувати це? - вірогідність інформації про параметр з вибірки. Це дійсно може бути інтерпретоване лише у відносному сенсі, як, наприклад, коли ми використовуємо його для порівняння правдоподібностей двох різних можливих значень параметрів через коефіцієнт ймовірності тесту . Швидкість зміни логічності - це оцінка, функція повідомляє нам, як швидко змінюється ймовірність, і на її відмінність наскільки це змінюється від вибірки до вибірки, у заданому парамітрі значення, скажімо . Рівняння (що насправді дивно!) θ ( θ 0 ) - ( θ 1 ) ˙ ( θ ) I ( θ ) θ 0 I ( θ ) = - E θ ¨ ( θ ) θ 0 ˙ ( θ ) θ = θ 0 θ θ 0(θ)θ(θ0)(θ1)˙(θ)I(θ)θ0

I(θ)=Eθ¨(θ)
говорить нам про наявність співвідношення (рівності) між інформацією (вірогідністю) для заданого значення параметра та кривизною функції ймовірності для цього значення параметра. Це дивовижна залежність між мінливістю (дисперсією) цієї статистики і очікуваною зміною ймовірності, коли ми будемо змінювати параметр в деякому інтервалі навколо (для тих же даних). Це дійсно і дивно, і дивно, і потужно!θ0˙(θ)θ=θ0θθ0

То яка функція ймовірності? Зазвичай ми вважаємо статистичну модель як сімейство розподілів ймовірностей для даних , індексованих параметром деяким елементом у просторі параметрів . Ми вважаємо цю модель істинною, якщо існує якесь значення таким, що дані насправді мають розподіл ймовірності . Таким чином, ми отримуємо статистичну модель шляхом введення справжнього розподілу ймовірностей, що генерує дані,x θ Θ θ 0Θ x f ( x ; θ 0 ) f ( x ; θ 0 ){f(x;θ),θΘ}xθΘθ0Θxf(x;θ0)f(x;θ0)в сім'ї розподілів ймовірностей. Але, зрозуміло, що таке введення можна зробити різними способами, і кожне таке введення буде "справжньою" моделлю, і вони дадуть різні ймовірнісні функції. І без такого вкладення не існує ймовірності функції. Здається, що нам дійсно потрібна допомога, деякі принципи, як розумно вибрати імбіднінг!

Отже, що це означає? Це означає, що вибір функції ймовірності говорить нам, як ми могли б очікувати зміни даних, якби правда трохи змінилася. Але це насправді не може бути підтверджено даними, оскільки дані дають лише інформацію про справжню функцію моделі яка фактично генерувала дані, і нічого не стосується всіх інших елементів обраної моделі. Таким чином ми бачимо, що вибір функції ймовірності схожий з вибором попереднього в байєсівському аналізі, він вводить в аналіз інформацію, що не стосується даних. Давайте розглянемо це на простому (дещо штучному) прикладі та подивимось на ефект вкладення в модель по-різному.f ( x ; θ 0 )f(x;θ0)f(x;θ0)

Припустимо, що є як . Отже, це справжній розподіл даних, що генерує дані. Тепер вбудуємо це у модель двома різними способами, модель A і модель B. ви можете перевірити, чи це збігається для .X1,,XnN(μ=10,σ2=1)

A:X1,,Xn iid N(μ,σ2=1),μRB:X1,,Xn iid N(μ,μ/10),μ>0
μ=10

Функції вірогідності логотипу стають

A(μ)=n2log(2π)12i(xiμ)2B(μ)=n2log(2π)n2log(μ/10)102i(xiμ)2μ

Функції оцінки: (похідні loglikelilience): і кривизна Таким чином, інформація про Фішера дійсно залежить від введення. Тепер ми обчислюємо інформацію про Фішера за справжнім значенням , тому інформація про Фішера про параметр дещо більша в моделі B.

˙A(μ)=n(x¯μ)˙B(μ)=n2μ102i(xiμ)215n
¨A(μ)=n¨B(μ)=n2μ2+102i2xi2μ3
μ=10
IA(μ=10)=n,IB(μ=10)=n(1200+20202000)>n

Це ілюструє, що в деякому сенсі інформація про Фішера повідомляє нам, як швидко змінилася б інформація з даних про параметр , якби керуючий параметр змінився способом, постульованим введенням в сімейство моделей . Поясненням вищої інформації моделі B є те, що наша модельна сім'я B постулює, що якби очікування зросло, то і дисперсія теж зросла б . Отже, у моделі B дисперсія вибірки також несе інформацію про , що не буде робити в моделі A.μ

Також цей приклад ілюструє, що нам дійсно потрібна певна теорія, яка допоможе нам у побудові модельних сімей.


1
чудове пояснення. Чому ти кажеш ? це функція - чи не 0 це лише при оцінці за істинним параметром ? \Eθ˙(θ)=0θθ0
ihadanny

1
Так, те, що ви говорите, є істинним, @idadanny Це нуль, коли оцінюється за значенням істинного параметра.
kjetil b halvorsen

Ще раз спасибі @kjetil - тож ще одне питання: чи дивовижна залежність між дисперсією балу та кривизною ймовірності правдивою для кожного ? або лише в околиці істинного параметра ? θθ0
ihadanny

Знову ж таки, що трелачінг відповідає дійсному значенню параметра. Але для того, щоб це було дуже корисно, має бути безперервність, так що вона приблизно відповідає дійсності в деякому сусідстві, оскільки ми будемо використовувати її за оцінним значенням , а не лише за справжнього (невідомого) значення. θ^
kjetil b halvorsen

Таким чином, відношення справедливо для істинного параметра , воно майже справедливо для оскільки ми припускаємо, що воно знаходиться в сусідстві з , але для загального він не має права, правда? θ0θmleθ0θ1
ihadanny

31

Давайте поміркуємо з точки зору негативної функції вірогідності лог . Від’ємна оцінка - це її градієнт щодо значення параметра. За істинним параметром оцінка дорівнює нулю. В іншому випадку він дає напрямок до мінімального (або у випадку невипуклої , точки сідла або локального мінімуму чи максимуму).

Інформація про Фішера вимірює кривизну навколо якщо дані слідують . Іншими словами, це говорить про те, наскільки змішування параметра вплине на вашу ймовірність журналу.θ θθθ

Подумайте, що у вас була велика модель з мільйонами параметрів. А у вас був маленький накопичувач, на якому можна зберігати свою модель. Як слід розставити пріоритети, скільки бітів кожного параметра зберігати? Правильна відповідь - розподілити біти відповідно до інформації Фішера (про це писав Ріссанен). Якщо інформація про параметр Фішера дорівнює нулю, цей параметр не має значення.

Ми називаємо це "інформацією", оскільки інформація Фішера вимірює те, наскільки цей параметр говорить нам про дані.


Розмовний спосіб думати про це: Припустимо, параметри керують автомобілем, а дані на задньому сидінні виправляють водія. Роздратованість даних - це інформація про Фішера. Якщо дані дозволяють водієві керувати, інформація про Фішера дорівнює нулю; якщо дані постійно вносять корективи, вони великі. У цьому сенсі інформація про Фішера - це кількість інформації, що йде від даних до параметрів.

Поміркуйте, що станеться, якщо зробити кермо більш чутливим. Це еквівалентно репараметризації. У такому випадку дані не хочуть бути такими голосними, боячись перевитрати автомобіля. Цей вид репараметризації зменшує інформацію про Фішера.


20

Доповнює гарну відповідь @ NeilG (+1) та вирішує ваші конкретні питання:

  1. Я б сказав, що він враховує "точність", а не саму "помилку".

Пам’ятайте, що гессіанство вірогідності журналу, оцінене за оцінками ML, - це спостережена інформація Фішера. Розрахункові стандартні помилки є квадратними коренями діагональних елементів, обернених спостереженою інформаційною матрицею Фішера. Виходячи з цього, інформація про Фішера є слідом інформаційної матриці Фішера. Враховуючи, що матриця Інформації Фішера є ермітовою матрицею з позитивно-напівдефінітною матрицею, то діагональні записи з неї дійсні та негативні; як прямий наслідок, цей слід повинен бути позитивним. Це означає, що у вас можуть бути лише "неідеальні" оцінки за вашим твердженням. Тож ні, позитивна інформація про Фішера не пов’язана з тим, наскільки ідеальний ваш MLE.IIj,jtr(I)

  1. Визначення відрізняється тим, як ми інтерпретуємо поняття інформації в обох випадках. Сказавши це, два виміри тісно пов'язані.

Зворотна інформація Фішера - це мінімальна дисперсія неупередженого оцінювача ( обмежена Крамера-Рао ). У цьому сенсі інформаційна матриця вказує, скільки інформації про оцінені коефіцієнти міститься в даних. Навпаки, ентропія Шеннона була взята з термодинаміки. Він пов'язує інформаційний вміст певного значення змінної як де - ймовірність прийому змінної значення. Обидва є вимірюванням того, наскільки "інформативною" є змінна. У першому випадку ви хоч оцінюєте цю інформацію з точки зору точності, тоді як у другому - за порушенням; різні сторони, однакова монета! : Dpp·log2(p)p

Для резюме: Зворотна матриця інформації Фішера, яку оцінювала за значеннями оцінки ML, є асимптотичною або приблизною коваріаційною матрицею. Оскільки ці значення оцінювача ML знаходяться в локальному мінімумі графічно, інформація про Фішера показує, наскільки глибокий цей мінімум, і скільки ви будете махати кімнатою у вас навколо. Я знайшов цей документ Lutwak et al. про розширення інформації про Фішера та нерівність Стама - інформативне прочитання з цього питання. Статті у Вікіпедії про Інформаційну метрику Фішера та про розбіжність Дженсена-Шеннона також хороші для початку.I

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.