Аналіз розбіжності Куллбека-Лейблера


18

Розглянемо наступні два розподіли ймовірностей

P       Q
0.01    0.002
0.02    0.004
0.03    0.006
0.04    0.008
0.05    0.01
0.06    0.012
0.07    0.014
0.08    0.016
0.64    0.928

Я підрахував розбіжність -Лейблера, яка дорівнює , я хочу взагалі знати, що мені показує це число? Взагалі, розбіжність Куллбека-Лейблера показує мені, наскільки далеко один розподіл ймовірностей від іншого, правда? Це схоже на термінологію ентропії, але з точки зору цифр, що це означає? Якщо у мене результат 0,49, чи можу я сказати, що приблизно один розподіл на 50% далекий від іншого?0.492820258


Дивіться тут дискусію, яка може допомогти.
Glen_b -Встановіть Моніку

Ви читали статтю у Вікіпедії?
Ніл G

Відповіді:


42

Дивергенція Куллбека-Лейблера не є метрикою, оскільки вона не симетрична, а також не задовольняє нерівності трикутника. Отже, "ролі", які відіграють у двох розподілах, різні, і важливо розподілити ці ролі відповідно до явища реального світу, що вивчається.

Коли ми пишемо (ОП розраховує вираз за допомогою логарифмів base-2)

K(P||Q)=ilog2(pi/qi)pi

ми вважаємо розподіл "цільовим розподілом" (зазвичай вважається справжнім розподілом), який ми наближаємо, використовуючи розподілQPQ

Тепер,

ilog2(pi/qi)pi=ilog2(pi)piilog2(qi)pi=H(P)EP(ln(Q))

де - ентропія Шеннона розподілу і називається "перехресною ентропією і " - так само несиметричною.P - E P ( ln ( Q ) ) P QH(P)PEP(ln(Q))PQ

Написання

K(P||Q)=H(P,Q)H(P)

(і тут порядок, коли ми записуємо розподіли у виразі крос-ентропії має значення, оскільки він теж не симетричний), дозволяє нам побачити, що KL-Divergence відображає збільшення ентропії над неминучою ентропією розподілу .P

Отже, ні , KL-дивергенцію краще не інтерпретувати як "міру відстані" між розподілами, а скоріше як міру збільшення ентропії через використання наближення до справжнього розподілу, а не самого істинного розподілу .

Таким чином, ми перебуваємо на землі теорії інформації. Щоб почути це від майстрів (Cover and Thomas) "

... якби ми знали справжній розподіл випадкової величини, ми могли б побудувати код із середньою довжиною опису . Якщо замість цього ми використовували код для розподілу , нам знадобиться в середньому для опису випадкової величини.PH(P)QH(P)+K(P||Q)

Так само кажуть мудрі люди

... це не справжня відстань між розподілами, оскільки воно не симетричне і не задовольняє нерівності трикутника. Тим не менш, часто корисно мислити відносну ентропію як "відстань" між розподілами.

Але останній підхід корисний, головним чином, коли намагаються мінімізувати KL-розбіжність, щоб оптимізувати деяку процедуру оцінки. Для інтерпретації її числового значення як такої не є корисною, і слід віддавати перевагу підходу "збільшення ентропії".

Для конкретних розподілів питання (завжди з використанням логарифмів base-2)

K(P||Q)=0.49282,H(P)=1.9486

Іншими словами, вам потрібно 25% більше бітів , щоб описати ситуацію , якщо ви збираєтеся використовувати , а справжнє розподіл . Це означає довші рядки коду, більше часу для їх запису, більше пам’яті, більше часу для їх читання, більша ймовірність помилок тощо… Не випадково Cover & Thomas говорять, що KL-Divergence (або «відносна ентропія») » вимірює неефективність, викликану наближенням ".QP


Надзвичайно корисна та інформативна відповідь.
MadHatter

1

KL Divergence вимірює втрати інформації, необхідні для представлення символу з P, використовуючи символи з Q. Якщо ви отримали значення 0,49, це означає, що в середньому ви можете кодувати два символи з P з двома відповідними символами з Q плюс один біт додаткової інформації .


Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.