Якісно, ​​що таке перехресна ентропія


15

Це питання дає кількісне визначення перехресної ентропії з точки зору її формули.

Я шукаю більш понятне визначення, wikipedia говорить:

В теорії інформації перехресна ентропія між двома розподілами ймовірностей вимірює середню кількість бітів, необхідних для ідентифікації події з набору можливостей, якщо використовується схема кодування на основі заданого розподілу ймовірностей q, а не "істинного" розподілу p .

Я наголосив на тій частині, яка створює мені проблеми в розумінні цього. Я хотів би приємного визначення, яке не потребує окремого (попереднього) розуміння ентропії.


1
Ви запитуєте визначення перехресного введення, яке одночасно буде визначати саму ентропію . І інтуїтивно так ... Якщо у вас виникли проблеми з розумінням самої концепції ентропії, було б непогано спочатку зрозуміти основне поняття, а потім будь-яке його розширення.
Алекос Пападопулос

1
Особисто я мав основне розуміння ентропії (хоча минуло майже 12 місяців, як я застосував). Але кількісний вираз ентропії повинен містити один короткий абзац, а перехресна ентропія повинна містити лише один. Тож я вважаю, що хороша відповідь може включати і те, і інше, і читачеві не потрібно звертатися в інше місце, щоб зрозуміти це.
Ліндон Уайт

Дивіться пов’язані повідомлення: stats.stackexchange.com/questions/66186/… та stats.stackexchange.com/questions/188903/…
kjetil b halvorsen

Відповіді:


23

Для кодування події, що сталася з вірогідністю вам потрібно принаймні 2 біти журналу 2 ( 1 / p ) (чому? Див мою відповідь на тему "Яка роль логарифму в ентропії Шеннона?" ).pжурнал2(1/p)

Отже, в оптимальному кодуванні середня довжина кодованого повідомлення становить тобтоентропія Шеннонавихідного розподілу ймовірностей.

ipiжурнал2(1pi),

ПQ

ipicode_length (i)=ipiжурнал2(1qi),
ipiжурнал2(1pi)

П=(12,12,0,0)

Тоді, якщо ми хочемо оптимально його кодувати, ми кодуємо A як 0 і B як 1, тож отримуємо один біт кодованого повідомлення на одну букву. (І це саме ентропія Шеннона нашого розподілу ймовірностей.)

ПQ=(14,14,14,14)


Гарне пояснення, дякую. Однак визначенням вікіпедії є sum_i [p_i * log (q_i)]. Використання 1 / q_i дає кількість можливих станів, отже, log_2 перетворює це на кількість бітів, необхідних для кодування одного символу, але сторінка Вікіпедії описує щось дещо інше.
redcalx

4
1/qiжурнал(1/qi)=-журнал(qi)
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.