Зв'язок між метрикою Фішера та відносною ентропією


20

Чи може хтось довести наступний зв’язок між метрикою інформації Фішера та відносною ентропією (або розбіжністю KL) чисто математично суворим способом?

D(p(,a+da)p(,a))=12gi,jdaidaj+(O(da3)
де a=(a1,,an),da=(da1,,dan) ,
gi,j=i(logp(x;a))j(logp(x;a)) p(x;a) dx
і gi,jdaidaj:=i,jgi,jdaidaj - це конвенція Ейнштейна про підсумовування.

Я знайшов вище сказане в приємному блозі Джона Бееса, де в коментарях говорить про це Васильос Анагностопулос.


1
Шановний Кумара: Для уточнення, це допоможе краще пояснити ваші позначення, зокрема значення gi,j . Крім того, я думаю, що у вашому вираженні відсутній постійний коефіцієнт 1/2 перед першим членом правої частини рівняння дисплея. Зауважимо, що те, що Кулбек сам назвав розбіжністю (використовуючи позначення J(,) ), є симетризованою версією того, що відомо, називається дивергенцією KL, тобто J(p,q)=D(pq)+D(qp) . Дивергенція KL була позначена I(,) у працях Kullback. Це пояснює також коефіцієнт 1/2 . Ура.
кардинал

Відповіді:


19

У 1946 році геофізик і баєсовський статистик Гарольд Джеффріс представив те, що ми сьогодні називаємо розбіжністю Куллбека-Лейблера, і виявив, що для двох розподілів, які "нескінченно близькі" (будемо сподіватися, що хлопці Math SE цього не бачать ;-), ми можемо написати їхня розбіжність Куллбека-Лейблера як квадратична форма, коефіцієнти якої задані елементами інформаційної матриці Фішера. Він інтерпретував цю квадратичну форму як елемент довжини риманівського багатоманіття, при цьому інформація Фішера відігравала роль риманівської метрики. З цієї геометризації статистичної моделі він отримав пріоритет свого Джеффріса як міру, природно індуковану Римановою метрикою, і цю міру можна інтерпретувати як внутрішньо рівномірне розподіл на колекторі, хоча, загалом, це не є обмеженою мірою.

Щоб написати суворий доказ, вам потрібно буде визначити всі умови регулярності та подбати про порядок помилок у розширеннях Тейлора. Ось короткий нарис аргументу.

Симетризована розбіжність Кульбека-Лейблера між двома щільністю і визначається якfg

D[f,г]=(f(х)-г(х))журнал(f(х)г(х))гх.

Якщо у нас є сімейство густин, параметризоване по , тоθ=(θ1,,θк)

D[p(θ),p(θ+Δθ)]=(p(х,θ)-p(хθ+Δθ))журнал(p(хθ)p(хθ+Δθ))гх,
в якому . Вводячи позначення деяка проста алгебра дає Використовуючи розширення Тейлора для природного логарифму, ми маємо Δθ=(Δθ1,,Δθк)
Δp(хθ)=p(хθ)-p(хθ+Δθ),
D[p(θ),p(θ+Δθ)]=Δp(xθ)p(xθ)log(1+Δp(xθ)p(xθ))p(xθ)dx.
log(1+Δp(xθ)p(xθ))Δp(xθ)p(xθ),
і тому Але Звідси в якому
D[p(θ),p(θ+Δθ)](Δp(xθ)p(xθ))2p(xθ)dx.
Δp(xθ)p(xθ)1p(xθ)i=1kp(xθ)θiΔθi=i=1klogp(xθ)θiΔθi.
D[p(θ),p(θ+Δθ)]i,j=1кгijΔθiΔθj,
гij=журналp(хθ)θiжурналp(хθ)θjp(хθ)гх.

Це оригінальний папір:

Джеффріс, Х. (1946). Інваріантна форма для попередньої ймовірності проблем оцінки. Зб. Королівський соц. Лондона, серія A, 186, 453–461.


1
Дуже дякую за приємне написання. Було б добре, якщо ви також можете допомогти в цьому .
Кумара

Так, ви правильно сказали. Я повинен вийти з цієї «пастки абстракції».
Кумара

@zen Ви використовуєте розширення логарифму Тейлора під інтегралом, чому це справедливо?
Sus20200

1
Наче важливим є те, що ви починаєте з симетризованої дивергенції KL, на відміну від стандартної KL розбіжності. Стаття у Вікіпедії не згадує симетризовану версію, тому вона може бути неправильною. en.wikipedia.org/wiki/Kullback%E2%80%93Leibler_divergence
хірургічний командир

11

Доказ звичайного (несиметричного) розбіжності KL

У відповіді Дзен використовується симетризована дивергенція KL, але результат має місце і для звичайної форми, оскільки він стає симетричним для нескінченно близьких розподілів.

Ось доказ дискретних розподілів, параметризованих скаляром (тому що я лінивий), але його можна легко переписати для безперервних розподілів або вектора параметрів:θ

D(pθ,pθ+гθ)=pθжурналpθ-pθжурналpθ+гθ .
Тейлор-розширення останнього терміна: Припускаючи деякі закономірності, я використав два результати:
=pθжурналpθ-pθжурналpθ= 0-гθpθггθжурналpθ= 0 -12гθ2pθг2гθ2журналpθ=-pθ(ггθжурналpθ)2 +О(гθ3)=12гθ2pθ(ггθжурналpθ)2Інформація про Фішера+О(гθ3).
:pθггθжурналpθ=ггθpθ=ггθpθ=0,

:pθг2гθ2журналpθ=pθггθ(1pθгpθгθ)=pθ[1pθг2pθгθ-(1pθгpθгθ)2]=г2pθгθ2-pθ(1pθгpθгθ)2=г2гθ2pθ= 0-pθ(ггθжурналpθ)2.

4

Подібне співвідношення (для одновимірного параметра) можна знайти в рівнянні (3) наступної роботи

Д. Гоо (2009), Відносна ентропія та функція оцінки: Нові інформаційно-оціночні відносини через довільні адитивні обурення , в Зб. Міжнародний симпозіум IEEE з теорії інформації , 814–818. ( стійке посилання ).

Автори посилаються на це

С. Куллбек, інформаційна теорія та статистика . Нью-Йорк: Дувр, 1968.

для підтвердження цього результату.


1
Багатовимірна версія рівняння (3) цього документу доведена в цитованому тексті Куллбека на сторінках 27-28. Постійна схоже, пропала в питанні про ОП. :)1/2
кардинал
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.