Дивергенція KL є природним способом вимірювання різниці між двома розподілами ймовірностей. Ентропія розподілу p дає мінімально можливу кількість біт на повідомлення, яка знадобиться (в середньому) для кодування втрат, що втрачаються з p . Досягнення цієї межі потребує використання оптимального коду, розробленого для p , який присвоює коротші слова коду подіям з більшою ймовірністю. D K L ( p ∥ q ) можна інтерпретувати як очікувану кількість зайвих біт на повідомлення, необхідні для кодування подій, отриманих з істинного розподілу pН( р )pppDКL( p ∥ q)p, якщо використовується оптимальний код для розподілу а не p . Він має деякі приємні властивості для порівняння розподілів. Наприклад, якщо р і q рівні, то розбіжність KL дорівнює 0.qppq
Перехресна ентропія може бути інтерпретована як кількість біт на повідомлення, необхідне (в середньому) для кодування подій, отриманих з істинного розподілу p , якщо використовується оптимальний код для розподілу q . Зверніть увагу на різницю: D K L ( p ∥ q ) вимірює середню кількість зайвих біт на повідомлення, тоді як H ( p , q ) вимірює середню кількість загальних бітів на повідомлення. Це правда, що для фіксованого p , H ( pН( р , q)pqDКL( p ∥ q)Н( р , q)p зростатиме, коли q все більше відрізняється від p . Але, якщо p не вважається фіксованим, важко інтерпретувати H ( p , q ) як абсолютний показник різниці, оскільки він росте з ентропією p .Н( р , q)qppН( р , q)p
Дивергенція KL та поперечна ентропія пов'язані як:
DКL( p ∥ q) = Н( р , q) - Н( р )
З цього виразу ми бачимо, що коли і q рівні, кросова ентропія не дорівнює нулю; скоріше, це дорівнює ентропії p .pqp
Перехресна ентропія зазвичай виявляється у функціях втрат при машинному навчанні. У багатьох із цих ситуацій трактується як "справжній" розподіл, а q як модель, яку ми намагаємося оптимізувати. Наприклад, у проблемах класифікації загальновживана поперечна ентропійна втрата (ака логічна втрата ) вимірює поперечну ентропію між емпіричним розподілом міток (з урахуванням входів) та розподілом, передбаченим класифікатором. Емпіричний розподіл для кожної точки даних просто призначає ймовірність 1 класу цієї точки даних, а 0 - всім іншим класам. Бічна примітка: перехресна ентропія в цьому випадку виявляється пропорційною негативній ймовірності журналу, тому мінімізація її еквівалентна максимальній імовірності.pq
Зауважимо, що (емпіричний розподіл у цьому прикладі) фіксований. Отже, було б рівнозначно сказати, що ми мінімізуємо розбіжність KL між емпіричним розподілом та прогнозованим розподілом. Як ми можемо бачити в виразі вище, два пов'язані адитивним терміном H ( p ) (ентропія емпіричного розподілу). Оскільки p фіксовано, H ( p )pН( р )pН( р )не змінюється з параметрами моделі, і її можна не враховувати у функції втрат. Ми можемо ще хотіти говорити про розбіжність KL з теоретичних / філософських причин, але в цьому випадку вони рівнозначні з точки зору вирішення проблеми оптимізації. Це може бути невірно для інших застосувань перехресної ентропії та дивергенції KL, де може відрізнятися.p
pqDКL( p ∥ q)pqj ∣ ipj ∣ i - це дивергенція Куллбека-Лейблера (яка в цьому випадку дорівнює поперечній ентропії аж до постійної добавки) ".
van der Maaten and Hinton (2008) . Візуалізація даних за допомогою t-SNE.