Адаптація відстані Кульбека-Лейблера?


28

Подивіться на цю картинку: введіть тут опис зображення

Якщо ми виведемо вибірку з червоної щільності, то очікується, що деякі значення будуть меншими ніж 0,25, тоді як неможливо сформувати такий зразок із синього розподілу. Як наслідок, відстань Кульбека - Лейблера від червоної щільності до синьої щільності - нескінченність. Однак обидві криві у певному "природному сенсі" не такі виразні.

Ось моє запитання: чи існує адаптація відстані Кульбека-Лейблера, яка дозволила б скінчити відстань між цими двома кривими?


1
У якому «природному розумінні» ці криві «не такі виразні»? Як ця інтуїтивна близькість пов'язана з будь-якою статистичною властивістю? (Я можу придумати кілька відповідей, але мені цікаво, що ви маєте на увазі.)
whuber

1
Ну ... вони досить близькі один одному в тому сенсі, що обидва визначені на позитивних значеннях; вони обидва збільшуються, а потім зменшуються; обоє мають насправді однакові очікування; і відстань Кулбека Лейблера "невелика", якщо ми обмежимось частиною осі x ... Але для того, щоб пов'язати ці інтуїтивні поняття з будь-якою статистичною властивістю, мені знадобиться певне чітке визначення для цих особливостей ...
ocram

Відповіді:


18

Ви можете подивитися на Розділ 3 Деврої, Дьорфі та Лугосі . Імовірнісна теорія розпізнавання образів , Спрингер, 1996. Див., Зокрема, розділ про розбіжності.f

ff Розбіжності можна розглядати як узагальнення Куллбека - Лейблера (або, альтернативно, KL можна розглядати як особливий випадок дивергенції).f

Загальна форма -

Df(p,q)=q(x)f(p(x)q(x))λ(dx),

де - це міра, яка домінує над заходами, пов'язаними з і а - опукла функція, що задовольняє . (Якщо і є щільністю відносно міри Лебега, просто замініть позначення на і ви готові йти.)p q f ( ) f ( 1 ) = 0 p ( x ) q ( x ) d x λ ( d x )λpqf()f(1)=0p(x)q(x)dxλ(dx)

Відновлюємо KL, приймаючи . Ми можемо отримати різницю Хеллінгера через і отримаємо загальну варіацію або відстань, взявши. Останнє даєf ( x ) = ( 1 - f(x)=xlogxL1f(x)= 1f(x)=(1x)2L1f(x)=12|x1|

DTV(p,q)=12|p(x)q(x)|dx

Зауважте, що цей останній принаймні дає вам кінцеву відповідь.

В іншій невеликій книзі під назвою Густині оцінка: ViewL1 , Devroye сильно для використання цього останнього відстані стверджує , завдяки своїм властивостям багатьох добре інваріантності (серед інших). Останню книгу, мабуть, трохи важче здобути, ніж першу, і, як випливає з назви, трохи більш спеціалізовану.


Додавання : Через це запитання мені стало відомо, що міра, яку пропонує @Didier, (до постійної величини) відома як розбіжність Дженсена-Шеннона. Якщо перейти за посиланням на відповідь, поданий у цьому питанні, ви побачите, що виявляється, що квадратний корінь цієї кількості насправді є метрикою і раніше був визнаний у літературі окремим випадком -відходження . Мені було цікаво, що ми, здається, колективно «заново» переробили колесо (досить швидко) під час обговорення цього питання. Тлумачення, яке я дав до нього в коментарі нижче @ відповідь Дідьє, також було раніше визнано. Навколо все, начебто акуратно.f


1
Дуже хороша! Я спробую знайти «Імовірнісну теорію розпізнавання образів» та зрозуміти її розділ 3!
окрам

1
хороша відповідь, зауважте, що найчастіше визначається іншим способом, який робить його половиною відстані . L 1DTVL1
Робін Жирард

1
@robin, дякую за ваш коментар. Так, я це усвідомлюю. Я просто намагався уникнути безладної сторонньої константи в експозиції. Але, строго кажучи, ти маєш рацію. Я відповідно оновив його.
кардинал

3
Ваше додаток - це найкорисніша інформація, яку я натрапив на статистику.SE. За це найсильніше дякую. Я просто відтворити тут посилання ви дали: research-repository.st-andrews.ac.uk/bitstream/10023/1591/1 / ... Endres і Schindelin, нову метрику для імовірнісних розподілів, IEEE Trans. в Інфо. Твій. , т. 49, ні. 3, липень 2003, стор 1858-1860.
Чи

1
@Didier, ну, це була скоріше щаслива випадковість, ніж будь-що інше. На інше питання ніхто не відповідав, тому я вирішив спробувати розібратися, що в першу чергу є розбіжність Дженсен-Шеннон. Як тільки я знайшов визначення, здавалося розумним з'єднати два питання через моє доповнення. Я радий, що ти знайшов це корисним. З повагою
кардинал

19

Кульбак-Ліблер дивергенції , з по відношенню до є нескінченним , коли не є абсолютно безперервної по відношенню до , тобто, коли існує вимірна множина таке , що і . Крім того, дивергенція KL не є симетричною, в тому сенсі, що взагалі . Нагадаємо, що з обох цих недоліків, які все ще базуються на розбіжності KL, є введення середини Таким чиномκ(P|Q)PQPQAQ(A)=0P(A)0κ(PQ)κ(QP)

κ(PQ)=Plog(PQ).
R=12(P+Q).
Rє ймовірнісної мірою, а і завжди абсолютно неперервні по відношенню до . Отже, можна вважати "відстань" між і , все ще засновану на дивергенції KL, але використовуючи , визначене як Тоді неотрицательний і кінцевий для кожного і , симетричний у тому сенсі, що для кожного і , і тоді і тільки тоді .PQRPQR
η(P,Q)=κ(PR)+κ(QR).
η(P,Q)PQηη(P,Q)=η(Q,P)PQP = Qη(P,Q)=0P=Q

Еквівалентний склад -

η(P,Q)=2log(2)+(Plog(P)+Qlog(Q)(P+Q)log(P+Q)).

Додаток 1 Введення середини і не є довільним у тому сенсі, що де мінімум перевищує набір імовірнісних заходів.PQ

η(P,Q)=min[κ(P)+κ(Q)],

Додаток 2 @ кардинальне зауваження, що також є -відходження, для опуклої функції ηf

f(x)=xlog(x)(1+x)log(1+x)+(1+x)log(2).

2
@Marco, @Didier Piau, можна відзначити, що пропозиція @ Дідьє є ще одним особливим випадком -відходження, де . ff(x)=xlogx(1+x)log(1+x2)
кардинал

1
@Marco, @Didier Piau, альтернативним складом, який має деяку викликаючу природу є і так де Іншими словами, - це "різниця між ентропією середнього показника і величиною середня ентропія заходів ".η(P,Q)=PlogP+QlogQ2RlogR=2H(R)(H(P)+H(Q))η(P,Q)=2(H(μ(P,Q))μ(H(P),H(Q))μ(x,y)=x+y212η(P,Q)
кардинал

3
Це не лише розбіжність Дженсен-Шеннон?
Спогад


"де мінімум перевищує набір імовірнісних заходів." Мені подобається ця характеристика розбіжності Йенсена-Шеннона. Чи є десь докази цього?
користувач76284

10

Відстань Колмогорова між двома розподілами і є нормою підтримки їх CDF. (Це найбільша вертикальна розбіжність між двома графами CDF.) Він використовується в дистрибуційному тестуванні, де - гіпотезований розподіл, а - емпірична функція розподілу набору даних.PQPQ

Важко охарактеризувати це як "адаптацію" відстані KL, але воно відповідає іншим вимогам бути "природними" та кінцевими.

Між іншим, оскільки дивергенція KL не є справжньою "дистанцією", нам не потрібно турбуватися про збереження всіх аксіоматичних властивостей відстані. Ми можемо зберегти властивість невід'ємності, роблячи значення кінцевого застосування будь-якого монотонного перетворення для деякого кінцевого значення . Наприклад, зворотна дотична буде добре.R+[0,C]C


1
Дякую за пропозицію про відстань Колмогорова. Чи можете ви зробити свій коментар щодо монотонної трансформації дещо виразніше? Thx
ocram

1
@Marco Я не розумію, як можна бути більш явним. Ви маєте на увазі перезапис того, що я написав у формулі, такі як або для з мається на увазі для всіх ? arctan(KL(P,Q))f(KL(P,Q))f:R+[0,C]xyf(x)f(y)x,y0
whuber

1
Так, це я мав на увазі :-) Я не був впевнений у тому, що застосувати перетворення. Тепер, зрозуміло, thx
ocram

1
@Marco: Я загублений. Чи погоджуєтесь ви на відстань Колмогорова (яка завжди скінчена, але не має нічого спільного з розбіжністю KL)? Або для обмеженого монотонного перетворення дивергенції KL (наприклад, )? У прикладі вашої посади (і в будь-якому іншому не зовсім безперервному прикладі) останній створює надсумок перетворення ( якщо ви погоджуєтесь на ). По суті, це відмовляється від будь-якої ідеї більш точно визначити відстань між такими мірами ймовірності, ніж сказати, що вони далекі (чи ви кодуєте це за допомогою чи не має значення). arctanπ/2arctanπ/2+
Зробив

@Didier Так, трансформована дивергенція KL (коли симетризована, як ви описуєте) може не задовольнити нерівність трикутника і, отже, не буде відстані, але все одно визначатиме топологію (яка, ймовірно, може бути виміряна). Ти б тим самим відмовився майже нічого. Я залишаюсь агностиком щодо достоїнств робити щось із цього: мені здається, це лише спосіб розкрити труднощі, пов'язані з нескінченними значеннями розбіжності KL, в першу чергу.
whuber

2

Так, Бернардо і Реуда визначили щось, що називається "внутрішньою невідповідністю", яка для всіх цілей є "симетризованою" версією KL-розбіжності. Приймаючи розбіжність KL від до як Власне розбіжність задається:PQκ(PQ)

δ(P,Q)min[κ(PQ),κ(QP)]

Пошук внутрішньої невідповідності (або байєсівського критерію) надасть вам деякі статті щодо цього заходу.

У вашому випадку ви б просто взяли розбіжність KL, яка є кінцевою.

Інший альтернативний захід KL - відстань Хеллінгера

EDIT: уточнення, деякі зауваження припускають, що внутрішня розбіжність не буде кінцевою, коли одна щільність 0, коли інша ні. Це не відповідає дійсності, якщо операція оцінки нульової щільності проводиться як межа або . Межа чітко визначена, і вона дорівнює для однієї з розбіжностей KL, а інша буде розходитися. Щоб побачити цю примітку:Q0 P0 0

δ(P,Q)min[Plog(PQ),Qlog(QP)]

Приймаючи обмеження як над областю інтеграла, другий інтеграл розходиться, а перший інтеграл збігається з над цією областю (при умові, що умови такі, що можна міняти межі та інтегрувати). Це тому, що . В силу симетрії в і результат також має місце для .P00limz0zlog(z)=0PQQ


1
Навіть "внутрішня розбіжність" буде нескінченною, коли дорівнює нулю з позитивною ймовірністю для і навпаки, навіть якщо і інакше однакові. PQPQ
whuber

1
Так ... Я боюся, що внутрішня невідповідність не відповідає вимозі. Але дякую за пропозицію. Будь-яка інша пропозиція буде вдячна.
окрам

1
Це дійсно відповідає вимозі, якщо ви обмежите підтримку синьої щільності, щоб бути там, де вона має суворо позитивну підтримку, так само, як і для червоного (> 0)
ймовірністьлогічний

3
@probabilityislogic: Я не розумію ваших останніх зауважень. По- перше, давайте дамо свої власні імена для понять , пов'язаних і сказати , що абсолютно неперервна відносно (позначається ) , якщо для будь-якого вимірного , означає . Тепер, незважаючи на ваші граничними міркування кілька загадкова (для мене), ваш кінцева тоді і тільки тоді або . ... / ...PQPQAQ(A)=0P(A)=0δ(P,Q)PQQP
Чи

2
... / ... Вихід з головоломки ви , здається, вирили в можливо ввести в середній точці заходи . Оскільки і , величина завжди кінцева. Крім того, iff і є симетричним. Отже , дійсно вимірює свого роду "відстань" між і . P+QPP+QQP+Qη(P,Q):=κ(P|P+Q)+κ(Q|P+Q)η(P,Q)=0P=Qηη(P,Q)PQ
Чи
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.