Дивергенція Куллбека-Лейблера має декілька приємних властивостей, одна з яких полягає в тому, що вид від областей, де має ненульову масу, а має нульову масу. Це може виглядати як помилка, але насправді це особливість у певних ситуаціях.K L [ q ; p ]q ( x )p ( x )
Якщо ви намагаєтесь знайти наближення до складного (нерозбірливого) розподілу шляхом приблизного розподілу
ви хочете бути абсолютно впевненим, що будь-яке 𝑥, яке було б дуже неможливо зробити з також було б дуже неможливо з . Це KL має цю властивість легко показати: в є . Коли 𝑞 (𝑥) мало, але - ні, це нормально. Але коли невеликий, він зростає дуже швидко, якщо також не малий. Отже, якщо ви обираєте щоб мінімізуватиp ( x )q ( x )p ( x )q ( x )q ( x ) l o g [ q ( x ) / p ( x )]p ( x )p ( x )q ( x )q(x)KL[q;p], дуже малоймовірно, що присвоює багато маси в регіонах, де майже до нуля.q(x)p(x)
Розбіжність Дженсена-Шеннона не має цієї властивості. Він добре поводиться і тоді, коли і малі. Це означає, що він не буде штрафувати стільки розподілу з якого можна відібрати значення, неможливі в .p(x)q(x)q(x)p(x)