Чому дивергенція KL є негативною?


18

Чому дивергенція KL є негативною?

З точки зору теорії інформації, я маю таке інтуїтивне розуміння:

Скажімо, є два ансамблі A і B які складаються з одного набору елементів, позначених x . p(x) і q(x) - різні розподіли ймовірностей щодо ансамблів A і B відповідно.

З точки зору теорії інформації, являє собою найменшу кількість бітів , яке потрібно для запису елемент х для ансамблю А . Так що очікування Е х Керівництво е н с е м б л е - р ( х ) LN ( р ( х ) ) можна інтерпретувати як , щонайменше , скільки біт , що нам потрібно для запису елемент в А в середньому.log2(P(x))xA

xensemblep(x)ln(p(x))
A

Оскільки ця формула ставить нижню межу на біти, які нам в середньому потрібні, так що для іншого ансамблю який приводить до різного розподілу ймовірностей q ( x ) , межа, яку вона дає для кожного елемента x , точно не буде біт, тобто заданий p ( x ) , що означає прийняття очікування, x e n s e m b l e - p ( x ) ln ( q ( x ) )Bq(x)xp(x)

xensemblep(x)ln(q(x))
ця середня довжина, безумовно, буде більшою за попередню, що призводить до
я не ставлюсюди, оскількиp(x)іq(x)різні.
xensemblep(x)ln(p(x))ln(q(x))>0
p(x)q(x)

Це моє інтуїтивне розуміння, чи є суто математичний спосіб доведення розбіжності КЛ негативний? Проблему можна констатувати як:

p(x)q(x)+p(x)dx=1+q(x)dx=1

+p(x)lnp(x)q(x)

Як це можна довести? Або це можна довести без додаткових умов?


1
Якщо ви розумієте доказ нерівності Фано, легко вивести негативність відносної ентропії.
Лернер Чжан

Відповіді:


30

Доказ 1:

lnaa1a>0

DKL(p||q)0DKL(p||q)0

D(p||q)=xp(x)lnp(x)q(x)=xp(x)lnq(x)p(x)(a)xp(x)(q(x)p(x)1)=xq(x)xp(x)=11=0

ln

-хp(х)журнал2p(х)-хp(х)журнал2q(х)

Тоді якщо ми підведемо лівий термін праворуч, отримаємо:

хp(х)журнал2p(х)-хp(х)журнал2q(х)0хp(х)журнал2p(х)q(х)0

The reason I am not including this as a separate proof is because if you were to ask me to prove Gibbs' inequality, I would have to start from the non-negativity of KL divergence and do the same proof from the top.


Proof 2: We use the Log sum inequality:

i=1nailog2aibi(i=1nai)log2i=1naii=1nbi

Then we can show that DKL(p||q)0:

D(p||q)=xp(x)log2p(x)q(x)(b)(xp(x))log2xp(x)xq(x)=1log211=0

where we have used the Log sum inequality at (b).


Proof 3:

(Taken from the book "Elements of Information Theory" by Thomas M. Cover and Joy A. Thomas)

D(p||q)=xp(x)log2p(x)q(x)=xp(x)log2q(x)p(x)(c)log2xp(x)q(x)p(x)=log21=0

where at (c) we have used Jensen's inequality and the fact that log is a concave function.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.