Чому дивергенція KL є негативною?
З точки зору теорії інформації, я маю таке інтуїтивне розуміння:
Скажімо, є два ансамблі і які складаються з одного набору елементів, позначених . і - різні розподіли ймовірностей щодо ансамблів і відповідно.
З точки зору теорії інформації, являє собою найменшу кількість бітів , яке потрібно для запису елемент х для ансамблю А . Так що очікування Е х Керівництво ∈ е н с е м б л е - р ( х ) LN ( р ( х ) ) можна інтерпретувати як , щонайменше , скільки біт , що нам потрібно для запису елемент в А в середньому.
Оскільки ця формула ставить нижню межу на біти, які нам в середньому потрібні, так що для іншого ансамблю який приводить до різного розподілу ймовірностей q ( x ) , межа, яку вона дає для кожного елемента x , точно не буде біт, тобто заданий p ( x ) , що означає прийняття очікування, ∑ x ∈ e n s e m b l e - p ( x ) ln ( q ( x ) )
я не ставлю≥сюди, оскількиp(x)іq(x)різні.
Це моє інтуїтивне розуміння, чи є суто математичний спосіб доведення розбіжності КЛ негативний? Проблему можна констатувати як:
Як це можна довести? Або це можна довести без додаткових умов?