Чому байєсівська задня частина концентрується навколо мінімізації розбіжності KL?


9

Розглянемо байєсівську задню θХ. Асимптотично, його максимум відбувається при оцінці MLE , що просто збільшує ймовірність .θ^аргмінθfθ(Х)

Усі ці поняття - байесівські пріори, що збільшують ймовірність - звучать супер принципово і зовсім не довільно. Не видно колоди.

Однак MLE мінімізує розбіжність KL між реальним розподілом та f_ \ theta (x) , тобто мінімізуєf~fθ(х)

KL(f~fθ)=-+f~(х)[журналf~(х)-журналfθ(х)]гх

Вуа - звідки взялися ці колоди? Чому, зокрема, розбіжність KL?

Чому, наприклад, мінімізація різної дивергенції не відповідає над принциповим і мотивованим концепціям байєсівських плакатів і максимізує ймовірність вище?

Здається, у цьому контексті є щось особливе щодо розбіжності та / або журналів KL. Звичайно, ми можемо кинути руки в повітря і сказати, що саме так математика. Але я підозрюю, що може виявитись якась глибша інтуїція чи зв'язки.


Деякі ідеї ви можете знайти тут: stats.stackexchange.com/questions/188903/…
kjetil b halvorsen

@kjetilbhalvorsen Попередня назва звучала як дублікат; Я прошу вибачення. Я вніс редагування, і повинно бути зрозуміло, чому це питання не є дублікатом.
Ятхарт Агарвал

Інші запитання задають: "Що таке дивергенція KL, і чому вона не є симетричною?" Відповіді пояснюють поняття розбіжності та деяку інформацію про KL. На противагу цьому, це питання задає питання: "Чому байєсова задня частина концентрується навколо мінімізації розбіжності KL?" Просто пояснення того, як розбіжності не повинні бути симетричними, і пояснення KL та констатація KL пов'язана з MLE не вдається вирішити суть питання тут: чому серед багатьох можливих розбіжностей KL, зокрема, має особливий зв'язок із байєсівською задньою частиною. Це має сенс?
Ятхарт Агарвал

Так, це має сенс, але проблема все ж є. Задні також залежать від попереднього, і якщо це сильно, задній може бути максимум від млечних. Але пріоритет у вашому запитанні відсутній.
kjetil b halvorsen

@kjetilbhalversen Я мав на увазі асимптотично все більше і більше зразків IID і в умовах (суворих) умов, при яких попереднє значення не має значення асимптотично!
Ятхарт Агарвал

Відповіді:


5

Використання логарифмів у подібних обчисленнях походить з теорії інформації . У конкретному випадку розбіжності KL міру можна інтерпретувати як відносну інформацію двох розподілів:

KL(f~fθ)=f~(x)(logf~(x)logfθ(x)) dx=(f~(x)logfθ(x) dxH(f~,fθ))(f~(x)logf~(x) dxH(f~)),

де H(f~)- це ентропія Росіїf~ і H(f~,fθ) - це перехресна ентропія f~ і fθ. Ентропію можна розглядати як міру середньої швидкості виробленої густиною (думка перехресна ентропія трохи складніше). Мінімізація розбіжності KL для фіксованого значенняf~ (як у проблемі, яку ви згадуєте) еквівалентна мінімізації перехресної ентропії, і тому цій оптимізації можна дати інформаційно-теоретичну інтерпретацію.

Я не можу коротко викласти тестування інформації та властивості інформаційних заходів. Однак я рекомендую ознайомитись із полем, оскільки воно має тісні зв’язки зі статистикою. Багато статистичних заходів, що включають інтеграли та суми над логарифмами густин, є простими комбінаціями стандартних інформаційних заходів, що використовуються в теорії вимірювань, і в таких випадках їм можна давати інтерпретацію з точки зору базових рівнів інформації різної щільності тощо.


Перегляд теорії інформації звучить багатообіцяюче! Дякую, що вказали мені на це.
Yatharth Agarwal

Очевидно, ви не можете пояснити ціле математичне поле у ​​публікації StackExchange, але чи мали би ви якісь конкретні посилання на їхній журнал?
Ятхарт Агарвал

Я просто думаю, що за такою глибокою інтуїцією є, чому, скажімо, е в рівнянні Ейлера та така, що тут ховається подібна інтуїція. Можливо, продукт десь змушує виникнути природний логарифм. Я не впевнений.
Yatharth Agarwal

@ Ятхарт логарифм виникає тут через його центральну роль у визначенні ентропії Шеннона. Щодо "чому" логарифм доречний для вимірювання інформації, на відміну від іншої функції, погляньте на теорему 2 у "Математичній теорії зв'язку" Шеннона. Крім того, "Теорія інформації та статистична механіка" Джейне - приємне вступ.
Нейт-папа
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.