Дивергенція Куллбека-Лейблера не є метрикою, оскільки вона не симетрична, а також не задовольняє нерівності трикутника. Отже, "ролі", які відіграють у двох розподілах, різні, і важливо розподілити ці ролі відповідно до явища реального світу, що вивчається.
Коли ми пишемо (ОП розраховує вираз за допомогою логарифмів base-2)
K(P||Q)=∑ilog2(pi/qi)pi
ми вважаємо розподіл "цільовим розподілом" (зазвичай вважається справжнім розподілом), який ми наближаємо, використовуючи розподілQPQ
Тепер,
∑ilog2(pi/qi)pi=∑ilog2(pi)pi−∑ilog2(qi)pi=−H(P)−EP(ln(Q))
де - ентропія Шеннона розподілу і називається "перехресною ентропією і " - так само несиметричною.P - E P ( ln ( Q ) ) P QH(P)P−EP(ln(Q))PQ
Написання
K(P||Q)=H(P,Q)−H(P)
(і тут порядок, коли ми записуємо розподіли у виразі крос-ентропії має значення, оскільки він теж не симетричний), дозволяє нам побачити, що KL-Divergence відображає збільшення ентропії над неминучою ентропією розподілу .P
Отже, ні , KL-дивергенцію краще не інтерпретувати як "міру відстані" між розподілами, а скоріше як міру збільшення ентропії через використання наближення до справжнього розподілу, а не самого істинного розподілу .
Таким чином, ми перебуваємо на землі теорії інформації. Щоб почути це від майстрів (Cover and Thomas) "
... якби ми знали справжній розподіл випадкової величини, ми могли б побудувати код із середньою довжиною опису . Якщо замість цього ми використовували код для розподілу , нам знадобиться в середньому для опису випадкової величини.PH(P)QH(P)+K(P||Q)
Так само кажуть мудрі люди
... це не справжня відстань між розподілами, оскільки воно не симетричне і не задовольняє нерівності трикутника. Тим не менш, часто корисно мислити відносну ентропію як "відстань" між розподілами.
Але останній підхід корисний, головним чином, коли намагаються мінімізувати KL-розбіжність, щоб оптимізувати деяку процедуру оцінки. Для інтерпретації її числового значення як такої не є корисною, і слід віддавати перевагу підходу "збільшення ентропії".
Для конкретних розподілів питання (завжди з використанням логарифмів base-2)
K(P||Q)=0.49282,H(P)=1.9486
Іншими словами, вам потрібно 25% більше бітів , щоб описати ситуацію , якщо ви збираєтеся використовувати , а справжнє розподіл . Це означає довші рядки коду, більше часу для їх запису, більше пам’яті, більше часу для їх читання, більша ймовірність помилок тощо… Не випадково Cover & Thomas говорять, що KL-Divergence (або «відносна ентропія») » вимірює неефективність, викликану наближенням ".QP