Намагаючись доповнити інші відповіді ... Яка інформація - це інформація Фішера? Почніть з функції loglikelilie
як функція для , простір параметрів. Припускаючи деякі умови регулярності, які ми тут не обговорюємо, у нас є
(ми будемо писати похідні щодо параметра як крапки як тут). Дисперсія - інформація про Фішера
θ θ ∈ Θ E ∂
ℓ(θ)=logf(x;θ)
θθ∈ΘI(θ)=Eθ( ˙ ℓ (θ))2=-Eθ ¨ ℓ (θ)θ ˙ ℓ (θ)=0 ˙ ℓ (θ)E∂∂θℓ(θ)=Eθℓ˙(θ)=0I(θ)=Eθ(ℓ˙(θ))2=−Eθℓ¨(θ)
остання формула, що показує, що це (негативна) кривизна функції логопедичності. Часто знаходять оцінку максимальної ймовірності (мле) , вирішуючи рівняння ймовірності коли інформація Фішера як дисперсія балу велика, тоді рішення цього рівняння буде дуже чутливим до даних, даючи надію на високу точність молока. Це підтверджено принаймні асимптотично, асимптотична дисперсія молока є зворотною інформацією Фішера.
θℓ˙(θ)=0ℓ˙(θ)
Як ми можемо трактувати це? - вірогідність інформації про параметр з вибірки. Це дійсно може бути інтерпретоване лише у відносному сенсі, як, наприклад, коли ми використовуємо його для порівняння правдоподібностей двох різних можливих значень параметрів через коефіцієнт ймовірності тесту . Швидкість зміни логічності - це оцінка, функція повідомляє нам, як швидко змінюється ймовірність, і на її відмінність наскільки це змінюється від вибірки до вибірки, у заданому парамітрі значення, скажімо . Рівняння (що насправді дивно!)
θ ℓ ( θ 0 ) - ℓ ( θ 1 ) ˙ ℓ ( θ ) I ( θ ) θ 0 I ( θ ) = - E θ ¨ ℓ ( θ ) θ 0 ˙ ℓ ( θ ) ∣ θ = θ 0 θ θ 0ℓ(θ)θℓ(θ0)−ℓ(θ1)ℓ˙(θ)I(θ)θ0
I(θ)=−Eθℓ¨(θ)
говорить нам про наявність співвідношення (рівності) між інформацією (вірогідністю) для заданого значення параметра та кривизною функції ймовірності для цього значення параметра. Це дивовижна залежність між мінливістю (дисперсією) цієї статистики і очікуваною зміною ймовірності, коли ми будемо змінювати параметр в деякому інтервалі навколо (для тих же даних). Це дійсно і дивно, і дивно, і потужно!
θ0ℓ˙(θ)∣θ=θ0θθ0
То яка функція ймовірності? Зазвичай ми вважаємо статистичну модель як сімейство розподілів ймовірностей для даних , індексованих параметром деяким елементом у просторі параметрів . Ми вважаємо цю модель істинною, якщо існує якесь значення таким, що дані насправді мають розподіл ймовірності . Таким чином, ми отримуємо статистичну модель шляхом введення справжнього розподілу ймовірностей, що генерує дані,x θ Θ θ 0 ∈ Θ x f ( x ; θ 0 ) f ( x ; θ 0 ){f(x;θ),θ∈Θ}xθΘθ0∈Θxf(x;θ0)f(x;θ0)в сім'ї розподілів ймовірностей. Але, зрозуміло, що таке введення можна зробити різними способами, і кожне таке введення буде "справжньою" моделлю, і вони дадуть різні ймовірнісні функції. І без такого вкладення не існує ймовірності функції. Здається, що нам дійсно потрібна допомога, деякі принципи, як розумно вибрати імбіднінг!
Отже, що це означає? Це означає, що вибір функції ймовірності говорить нам, як ми могли б очікувати зміни даних, якби правда трохи змінилася. Але це насправді не може бути підтверджено даними, оскільки дані дають лише інформацію про справжню функцію моделі яка фактично генерувала дані, і нічого не стосується всіх інших елементів обраної моделі. Таким чином ми бачимо, що вибір функції ймовірності схожий з вибором попереднього в байєсівському аналізі, він вводить в аналіз інформацію, що не стосується даних. Давайте розглянемо це на простому (дещо штучному) прикладі та подивимось на ефект вкладення в модель по-різному.f ( x ; θ 0 )f(x;θ0)f(x;θ0)
Припустимо, що є як . Отже, це справжній розподіл даних, що генерує дані. Тепер вбудуємо це у модель двома різними способами, модель A і модель B.
ви можете перевірити, чи це збігається для .X1,…,XnN(μ=10,σ2=1)
A:X1,…,Xn iid N(μ,σ2=1),μ∈RB:X1,…,Xn iid N(μ,μ/10),μ>0
μ=10
Функції вірогідності логотипу стають
ℓA(μ)=−n2log(2π)−12∑i(xi−μ)2ℓB(μ)=−n2log(2π)−n2log(μ/10)−102∑i(xi−μ)2μ
Функції оцінки: (похідні loglikelilience):
і кривизна
Таким чином, інформація про Фішера дійсно залежить від введення. Тепер ми обчислюємо інформацію про Фішера за справжнім значенням ,
тому інформація про Фішера про параметр дещо більша в моделі B.
ℓ˙A(μ)=n(x¯−μ)ℓ˙B(μ)=−n2μ−102∑i(xiμ)2−15n
ℓ¨A(μ)=−nℓ¨B(μ)=n2μ2+102∑i2x2iμ3
μ=10IA(μ=10)=n,IB(μ=10)=n⋅(1200+20202000)>n
Це ілюструє, що в деякому сенсі інформація про Фішера повідомляє нам, як швидко змінилася б інформація з даних про параметр , якби керуючий параметр змінився способом, постульованим введенням в сімейство моделей . Поясненням вищої інформації моделі B є те, що наша модельна сім'я B постулює, що якби очікування зросло, то і дисперсія теж зросла б . Отже, у моделі B дисперсія вибірки також несе інформацію про , що не буде робити в моделі A.μ
Також цей приклад ілюструє, що нам дійсно потрібна певна теорія, яка допоможе нам у побудові модельних сімей.