Інтуїтивне пояснення інформації про Фішера та пов'язаного Cramer-Rao


59

Мені не подобається інформація про Фішера, що вона вимірює і наскільки вона корисна. Крім того, це стосунки з прив'язкою Крамера-Рао мені не видно.

Чи може хтось, будь ласка, дати інтуїтивне пояснення цих понять?


1
Чи є в статті Вікіпедії щось, що викликає проблеми? Він вимірює кількість інформації, яку спостережувана випадкова величина X несе невідомий параметр θ від якого залежить ймовірність X , а його зворотною є нижня межа Крамера-Рао на дисперсії неупередженого оцінювача θ .
Генрі

2
Я це розумію, але мені це не дуже комфортно. Мовляв, що саме означає "кількість інформації" тут. Чому відмінні очікування площі часткової похідної щільності вимірюють цю інформацію? Звідки походить цей вираз і т. Д. Тому я сподіваюся отримати певну інтуїцію.
Нескінченність

@ Infinity: Оцінка - це пропорційна швидкість зміни ймовірності спостережуваних даних під час зміни параметра і настільки корисна для висновку. Фішер подає інформацію про дисперсію (нульової) оцінки. Таким чином, математично це очікування квадрата першої часткової похідної логарифму густини і так є негативним від очікування другої часткової похідної логарифму щільності.
Генрі

Відповіді:


32

Тут я пояснюю, чому асимптотичною дисперсією оцінювача максимальної ймовірності є нижня межа Крамера-Рао. Сподіваємось, це дасть деяке розуміння щодо актуальності інформації про Фішера.

Статистичний висновок протікає з використанням функції ймовірності яку ви будуєте з даних. Точкова оцінка θ є значення , яке максимізує L ( & thetas ) . Оцінка θ є випадковою величиною, але це допомагає зрозуміти , що функція правдоподібності L ( θ ) є «випадкової кривої».L(θ)θ^L(θ)θ^ L(θ)

Тут ми припускаємо iid-дані, отримані з розподілу , і визначаємо ймовірність L ( θ ) = 1f(x|θ)

L(θ)=1ni=1nlogf(xi|θ)

Параметр має властивість, що він максимізує значення "справжньої" ймовірності, E L ( θ ) . Однак функція "спостережуваної" ймовірності L ( θ ) , побудована з даних, трохи "відключається" від справжньої ймовірності. Однак, як ви можете собі уявити, зі збільшенням кількості вибірки "спостережувана" ймовірність збігається до форми справжньої кривої ймовірності. Це ж стосується похідної вірогідності щодо параметра, функції рахунку L /θ . (Якщо коротко розповісти, інформація про Фішера визначає, наскільки швидкоθEL(θ)L(θ) L/θ спостережувана функція балів переходить у форму справжньої функції рахунку.)

При великому обсязі вибірки, ми припускаємо , що наша оцінка максимальної правдоподібності θ дуже близько до & thetas . Ми збільшити в малій околиці навколо θ і & thetas так , що функція правдоподібності «локально квадратичної».θ^θθθ^

θ^ L/θabθ

a(θ^θ)+b=0

або

θ^=θb/a.

З послідовності оцінки MLE ми це знаємо

E(θ^)=θ

в межі.

Тому асимптотично

nVar(θ^)=nVar(b/a)

θ

nVar(θ^)=1a2nVar(b)

anVar(b)

a=E[2Lθ2]=I(θ)

nVar(b)=nVar[Lθ]=I(θ)

Таким чином,

nVar(θ^)=1a2nVar(b)=(1/I(θ)2)I(θ)=1/I(θ)
1/I(θ)

2
Чи є графічне зображення частини, де ви згадуєте, що функція ймовірності локально квадратична?
quirik

@quirik, розгляньте можливість використання розширення Тейлора другого порядку навколо theta_hat.
idnavid

@ charles.y.zheng Це одне з найцікавіших пояснень сцени.
idnavid

13

Один із способів я розумію інформацію про рибалку - це таке визначення:

I(θ)=X2f(x|θ)θ2dxXf(x|θ)2θ2log[f(x|θ)]dx

f(x|θ)XθXf(x|θ)dx=1

Тепер, коли ви робите максимальну оцінку ймовірності (вставте тут "умови регулярності")

θlog[f(x|θ)]=0

θθx

Одне, що мені все-таки цікаво, це те, наскільки крутим є ймовірність журналу, а не наскільки крутою є якась інша монотонна функція ймовірності (можливо, це стосується "належних" бальних функцій в теорії рішень? Або, можливо, з аксіомами послідовності ентропії ?).

exp(ax2)

f(data|θ)=exp(log[f(data|θ)])

І коли ви тейлор розширюєте ймовірність журналу про MLE:

f(data|θ)[f(data|θ)]θ=θMLEexp(12[2θ2log[f(data|θ)]]θ=θMLE(θθMLE)2)

2θ2log[f(data|θ)]=n(1ni=1n2θ2log[f(xi|θ)])nI(θ)

θ


1
"Одне, що мені все-таки цікаво, це те, наскільки крута є ймовірність колоди, а не наскільки крута якась інша монотонна функція ймовірності". Я впевнений, що ви могли б отримати аналоги для інформації Фішера з точки зору інших перетворень ймовірності, але тоді ви не отримаєте настільки чіткого виразу для нижньої межі Cramer-Rao.
charles.y.zheng

2

Це найінтуїтивніша стаття, яку я бачив досі:

Нижня межа Крамера-Рао на варіації: "Принцип невизначеності" Адама та Єви Майкла Р. Пауерса, Журнал фінансів ризиків, Vol. 7, № 3, 2006

Це пояснюється аналогією Адама та Єви в Едемському саду, кидаючи монетку, щоб побачити, хто має їсти фрукти, і вони запитують себе, наскільки великий зразок необхідний для досягнення певного рівня точності в їх оцінці, і вони виявляють цю межу ...

Хороша історія з глибоким повідомленням про реальність справді.


6
Дякуємо, що опублікували цю посилання. Зрештою, я розчарувався, виявивши, що це насправді не пояснює CRLB. Він просто констатує це, не надаючи ніякого розуміння того, чому це правда, і лише надає якусь викликаючу, але в кінцевому рахунку безглузду мову, як-от "вичавлення інформації", намагаючись пояснити її.
whuber

@whuber: Досить справедливо, я погоджуюся, що це може пірнути глибше, а закінчення трохи різке. І все, що мені подобається в статті, це те, що це дійсно здається природним, що існує зв'язок між розміром вибірки, середньою вибіркою, законом великих чисел і що дисперсія вибірки може бути зменшена лише до точки (тобто, що має бути деякі зв'язані , що трапляється вищезгаданим). Це також дає зрозуміти, що це не якийсь невловимий математичний результат, а справді твердження про межі здобуття знань про реальність.
фондж

2

Хоча пояснення, подані вище, дуже цікаві, і мені подобалося переглядати їх, але я відчуваю, що природа нижньої межі Крамера-Рао найкраще пояснилася мені з геометричної точки зору. Ця інтуїція є резюме поняття концентрації еліпсів з 6-ї глави книги Шарфа про статистичну обробку сигналів .

θ ; Е & thetas ;θ^Σθ^

f(θ^)exp(12(θ^θ)TΣ1(θ^θ)) .

Тепер подумайте про контурні графіки цього розподілу для . Будь-яке обмеження верхньої межі щодо ймовірності (тобто ) призведе до виникнення еліпсоїда з центром у з фіксованим радіусом . Неважко показати, що між радіусом еліпсоїда та бажаною ймовірністю існує співвідношення один на один . Іншими словами, близький до в межах еліпсоїда, визначеного радіусом з вірогідністюthetas ; ∫ F ( & thetas ; ) d & thetas ; & le ; Р г & thetas ; г г Р г & thetas ; & thetas ; г Р гθR2θ^f(θ^)dθPrθrrPrθ^θrPr. Цей еліпсоїд називають концентраційним еліпсоїдом.

Розглядаючи вищеописаний опис, про CRLB можна сказати наступне. Серед усіх неупереджених оцінювачів CRLB являє собою оцінювач з коваріацією який за фіксованою ймовірністю "близькості" (як визначено вище) має найменшу концентрація еліпсоїда. На малюнку нижче представлена ​​двовимірна ілюстрація (натхненна ілюстрацією в книзі Шарфа ).ΣзглбРгθ^crlbΣcrlbPr

2D ілюстрація CRLB в контексті неупереджених оцінювачів.


2
Ну, це криваво чудово, особливо образ, потребує більше витрат.
Астрід
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.