Підручник Елементи теорії інформації дає нам приклад:
Наприклад, якби ми знали справжній розподіл p випадкової величини, ми могли б побудувати код із середньою довжиною опису H (p). Якщо замість цього ми використовували код для розподілу q, нам знадобиться H (p) + D (p || q) біти в середньому для опису випадкової величини.
Перефразовуючи наведене вище твердження, ми можемо сказати, що якщо ми змінимо розподіл інформації (з q на p), нам потрібно D (p || q) додаткових бітів в середньому для кодування нового розподілу.
Ілюстрація
Дозвольте мені проілюструвати це, використовуючи одне його застосування в природній обробці мови.
Вважаю , що велика група людей, позначений B, є посередниками , і кожен з них призначається завданням вибрати іменник від turkey
, animal
і book
та передач його на C. Існує ім'я хлопця , який може послати кожен з них по електронній пошті , щоб дати їм деякі натяки. Якщо ніхто з групи не отримав електронний лист, вони можуть підняти брови і вагатися на час, розглядаючи, що потрібно C. І ймовірність обрання кожного варіанту становить 1/3. Надзвичайно рівномірний розподіл (якщо ні, це може стосуватися їх власних уподобань, і ми просто ігноруємо такі випадки).
Але якщо їм дано дієслово, наприклад baste
, 3/4 з них можуть вибрати, turkey
а 3/16 вибрати animal
та 1/16 вибрати book
. Тоді скільки інформації в бітах в середньому отримав кожен з посередників, коли вони знають дієслово? Це є:
D(p(nouns|baste)||p(nouns))=∑x∈{turkey,animal,book}p(x|baste)log2p(x|baste)p(x)=34∗log23413+316∗log231613+116∗log211613=0.5709 bits
Але що робити, якщо подане дієслово read
? Ми можемо собі уявити, що вони обирають book
не вагаючись, тоді середній приріст інформації для кожного посередника з дієслова read
становить:
D(p(nouns|read)||p(nouns))=∑x∈{book}p(x|read)log2p(x|read)p(x)=1∗log2113=1.5849 bits
Ми можемо бачити, що дієслово read
може дати медіаторам більше інформації. І ось що може виміряти відносна ентропія.
Давайте продовжимо нашу розповідь. Якщо С підозрює, що іменник може бути неправильним, тому що А сказав йому, що він, можливо, помилився, надіславши невірне дієслово до посередників. Тоді скільки інформації в бітах може дати така штука поганих новин C?
1) якщо дієслово, задане A, було baste
:
D(p(nouns)||p(nouns|baste))=∑x∈{turkey,animal,book}p(x)log2p(x)p(x|baste)=13∗log21334+13∗log213316+13∗log213116=0.69172 bits
2) але що робити, коли дієслово було read
?
D(p(nouns)||p(nouns|baste))=∑x∈{book,∗,∗}p(x)log2p(x)p(x|baste)=13∗log2131+13∗log2130+13∗log2130=∞ bits
Оскільки С ніколи не знає, якими були б інші два іменники, і будь-яке слово в лексиці було б можливим.
Ми можемо бачити, що розбіжність KL несиметрична.
Я сподіваюся, що я маю рацію, і якщо ні, будь ласка, прокоментуйте та допоможіть виправити мене. Заздалегідь спасибі.