Дивергенція Дженсена Шеннона проти дивергенції Куллбека-Лейблера?

14

Я знаю, що Дивергенція KL не є симетричною і її не можна чітко розглядати як метрику. Якщо так, то чому він використовується, коли JS Divergence задовольняє необхідні властивості для метрики?

Чи існують сценарії, коли можна використовувати дивергенцію KL, але не JS Divergence чи навпаки?

— користувач2761431
джерело

Вони обидва використовуються, тільки це залежить від контексту. Коли зрозуміло, що необхідно мати чітку метрику, наприклад, коли кластеризація виконується, тоді JS є більш кращим вибором. З іншого боку, у виборі моделі широко використовується використання AIC, заснованого на KL. Ваги Akaike мають приємну інтерпретацію, для якої JS або не може надати аналог, або він ще не став популярним.

— Джеймс

5

Я знайшов дуже зрілу відповідь на Quora і просто виклав її тут для людей, які шукають її тут:

Дивергенція Куллбека-Лейблера має декілька приємних властивостей, одна з яких полягає в тому, що вид від областей, де має ненульову масу, а має нульову масу. Це може виглядати як помилка, але насправді це особливість у певних ситуаціях. $𝐾𝐿[𝑞;𝑝]$ $𝑞(𝑥)$ $𝑝(𝑥)$

Якщо ви намагаєтесь знайти наближення до складного (нерозбірливого) розподілу шляхом приблизного розподілу ви хочете бути абсолютно впевненим, що будь-яке 𝑥, яке було б дуже неможливо зробити з також було б дуже неможливо з . Це KL має цю властивість легко показати: в є . Коли 𝑞 (𝑥) мало, але - ні, це нормально. Але коли невеликий, він зростає дуже швидко, якщо також не малий. Отже, якщо ви обираєте щоб мінімізувати $𝑝(𝑥)$ $𝑞(𝑥)$ $𝑝(𝑥)$ $𝑞(𝑥)$ $𝑞(𝑥)𝑙𝑜𝑔[𝑞(𝑥)/𝑝(𝑥)]$ $𝑝(𝑥)$ $𝑝(𝑥)$ $𝑞(𝑥)$ $𝑞(𝑥)$ $𝐾𝐿[𝑞;𝑝]$ , дуже малоймовірно, що присвоює багато маси в регіонах, де майже до нуля. $𝑞(𝑥)$ $𝑝(𝑥)$

Розбіжність Дженсена-Шеннона не має цієї властивості. Він добре поводиться і тоді, коли і малі. Це означає, що він не буде штрафувати стільки розподілу з якого можна відібрати значення, неможливі в . $𝑝(𝑥)$ $𝑞(𝑥)$ $𝑞(𝑥)$ $𝑝(𝑥)$

— мох
джерело

1

Дивергенція KL має чітку інформаційно-теоретичну інтерпретацію і є загальновідомою; але я вперше почую, що симетризація KL-дивергенції називається JS-дивергенцією. Причина того, що JS-дивергенція використовується не так часто, є, мабуть, тим, що вона менш відома і не пропонує обов'язкові властивості.

— Джеймс Л.І.
джерело