Інтерпретація похідної Радона-Нікодима між мірами ймовірності?


11

Я бачив в деяких моментах використання похідної Радона-Нікодима однієї міри ймовірності відносно іншої, особливо це стосується розбіжності Куллбека-Лейблера, де це похідна від міри ймовірності моделі для якогось довільного параметра щодо реального параметра :θθ0

dPθdPθ0

Де ці обидві міри ймовірності на просторі точок даних, що залежать від значення параметра: .Pθ(D)=P(D|θ)

Яка інтерпретація такої похідної Радона-Нікодима у розбіжності Куллбека-Лейблера, або взагалі між двома імовірнісними заходами?

Відповіді:


12

По-перше, нам не потрібні міри ймовірності, просто -кінцевість. Так нехай вимірні простір і нехай і бути -Звичайно заходи по .M = ( Ω , F ) μ ν σ MσM=(Ω,F)μνσM

Радону-Никодима теорема стверджує , що якщо для всіх , позначимо через , то існує невід'ємне Борель функція така , що для всіх .A F μ ν f ν ( A ) = A fμ(A)=0ν(A)=0AFμνfA F

ν(A)=Afdμ
AF

Ось як мені подобається думати про це. По-перше, для будь-яких двох заходів на визначимо для значення . Це дійсне співвідношення еквівалентності, і ми кажемо, що та є рівнозначними в цьому випадку. Чому це доцільна еквівалентність заходів? Заходи - це лише функції, але їхні області є складними для візуалізації. Що робити, якщо дві звичайні функції мають цю властивість, тобто ? Добре, визначте і зауважте, що в будь-якому місці на підтримці μ ν μ ( A ) = 0Mμνμ ν f , g : RR f ( x ) = 0μ(A)=0ν(A)=0μνf,g:RRh ( x ) = { f ( x ) / g ( x ) g ( x ) 0 π e o.w. г г ч = е г г ч = 0 л е = 0 = е е г ч г е 0 / 0 г = 0 год л еf(x)=0g(x)=0

h(x)={f(x)/g(x)g(x)0πeo.w.
g нас , а поза підтримкою (оскільки підтримує і спільний доступ), тому дозволяє нам змінити масштаб у . Як зазначає @whuber, ключова ідея тут полягає не в тому, що якимось чином "безпечно" робити або ігнорувати, а скоріше, коли то не має значення, що робить, ми можемо просто визначити це довільно ( бути що тут не має особливого значення) і все ще працює. Також у цьому випадку ми можемо визначити аналогічну функцію з так, щоgh=fg gh=0πe=0=ffghgf0/0g=0hπehg/ffh=g .

Далі припустимо, що , але інший напрямок не обов'язково має місце. Це означає, що наше попереднє визначення все ще працює, але зараз не працює, оскільки воно матиме фактичні поділи на . Таким чином, ми можемо змінити масштаб у через , але ми не можемо піти в іншому напрямку, оскільки нам знадобиться змінити масштаб в щось не нульове.g(x)=0f(x)=0hh0gfgh=f0

Тепер повернемося до та та позначимо наш RND . Якщо , то це інтуїтивно означає, що одного можна змінити в інший, і навпаки. Але, як правило, ми хочемо в цьому напрямку піти лише в одному напрямку (тобто змінити хороший захід, як міра Лебега, на більш абстрактний захід), тому нам потрібно лише робити корисні речі. Цей масштаб є серцем RND.μνfμνμν

Повертаючись до пункту @ whuber у коментарях, є додаткова тонкість, чому можна ігнорувати питання . Це тому, що за допомогою заходів ми лише коли-небудь визначаємо речі до множин вимірювання тому в будь-якому множині з ми можемо просто змусити наш RND приймати будь-яке значення, скажімо, . Тож справа не в тому, що є суто безпечною, а навпаки, де у нас було б - це набір вимірювань wrt тому ми можемо просто визначити наш RND, щоб бути чимось приємним, не впливаючи на що-небудь.0/00Aμ(A)=010/00/00μ

Наприклад, припустимо, що для деяких . Тоді тому у нас є - RND (це може бути виправдано більш формально теоремою зміни мір). Це добре, тому що ми точно відновили коефіцієнт масштабування.kμ=νk>0

ν(A)=Adν=Akdμ
f(x)=k=dνdμ

Ось другий приклад, щоб підкреслити, як зміна RND на наборах мір не впливає на них. Нехай , тобто стандартний звичайний PDF плюс якщо введення раціональне, і нехай - RV з цією щільністю. Це означає, що тому насправді все ще є стандартним гауссовим RV. Це ніяким чином не вплинуло на розподіл, щоб змінити на оскільки це набір міри wrt0f(x)=φ(x)+1Q(x)1X

P(XA)=A(φ+1Q)dλ
=Aφdλ+λ(Q)=Aφdλ
XXQ0λ .

Як кінцевий приклад, припустимо, що і і нехай і є їх відповідними розподілами. Нагадаємо, що pmf є RND щодо міри підрахунку , і оскільки має властивість, що , виходить, що XPois(η)YBin(n,p)PXPYccc(A)=0A=

dPYdPX=dPY/dcdPX/dc=fYfX

тому ми можемо обчислити

PY(A)=AdPY
=AdPYdPXdPX=AdPYdPXdPXdcdc
=yAdPYdPX(y)dPXdc(y)=yAfY(y)fX(y)fX(y)=yAfY(y).

Таким чином, оскільки для всіх в підтримці , ми можемо змінити масштаб інтеграції щодо розподілу Пуассона в інтеграцію відносно біноміального розподілу, хоча, оскільки все дискретно, це виглядає як тривіальне результат.P(X=n)>0nY


Я торкнувся вашого більш загального питання, але не торкнувся розбіжностей KL. Принаймні, мені здається, що дивергенцію KL набагато простіше інтерпретувати через тестування гіпотез, як відповідь @kjetil b halvorsen тут . Якщо і існує міра яка домінує над обома, використовуючи ми можемо відновити форму з щільністю, тому для мене мені це легше.PQμdPdQ=dP/dμdQ/dμ:=p/q


3
Мені сподобалося це викладення (як і мені подобається весь ваш внесок), але внизу, здається, випливає з (повторного) твердження, що має певний сенс - але це не так. Щось відбувається з заходами, що не відбувається автоматично з функціями реальних значень: ви можете просто ігнорувати те, що відбувається на множинах міри нуля. Ось так уникнути необхідності мати значення у налаштуваннях похідних Радон-Нікодим. 0 / 00/00/0
whuber

1
@whuber дякую за коментар, що справді допомагає. Я намагався оновити, щоб вирішити цю
проблему
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.