Якісно, що таке перехресна ентропія

Це питання дає кількісне визначення перехресної ентропії з точки зору її формули.

Я шукаю більш понятне визначення, wikipedia говорить:

В теорії інформації перехресна ентропія між двома розподілами ймовірностей вимірює середню кількість бітів, необхідних для ідентифікації події з набору можливостей, якщо використовується схема кодування на основі заданого розподілу ймовірностей q, а не "істинного" розподілу p .

Я наголосив на тій частині, яка створює мені проблеми в розумінні цього. Я хотів би приємного визначення, яке не потребує окремого (попереднього) розуміння ентропії.

entropy information-theory

— Ліндон Уайт
джерело

Ви запитуєте визначення перехресного введення, яке одночасно буде визначати саму ентропію . І інтуїтивно так ... Якщо у вас виникли проблеми з розумінням самої концепції ентропії, було б непогано спочатку зрозуміти основне поняття, а потім будь-яке його розширення.

— Алекос Пападопулос

Особисто я мав основне розуміння ентропії (хоча минуло майже 12 місяців, як я застосував). Але кількісний вираз ентропії повинен містити один короткий абзац, а перехресна ентропія повинна містити лише один. Тож я вважаю, що хороша відповідь може включати і те, і інше, і читачеві не потрібно звертатися в інше місце, щоб зрозуміти це.

— Ліндон Уайт

Дивіться пов’язані повідомлення: stats.stackexchange.com/questions/66186/… та stats.stackexchange.com/questions/188903/…

— kjetil b halvorsen

Для кодування події, що сталася з вірогідністю вам потрібно принаймні біти (чому? Див мою відповідь на тему "Яка роль логарифму в ентропії Шеннона?" ). $p$ $\log_2(1/p)$

Отже, в оптимальному кодуванні середня довжина кодованого повідомлення становить тобтоентропія Шеннонавихідного розподілу ймовірностей.

\sum_{i} p_{i} {журнал}_{2} (\frac{1}{p_{i}}),

$\sum_i p_i \log_2(\tfrac{1}{p_i}),$

$P$ $Q$

\sum_{i} p_{i} code_length (i) = \sum_{i} p_{i} {журнал}_{2} (\frac{1}{q_{i}}),

$\sum_i p_i \text{code_length($i$)} = \sum_i p_i \log_2(\tfrac{1}{q_i}),$

\sum_{i} p_{i} \log_{2} (\frac{1}{p_{i}})

$\sum_i p_i \log_2(\tfrac{1}{p_i})$

$P=(\tfrac{1}{2}, \tfrac{1}{2}, 0, 0)$

Тоді, якщо ми хочемо оптимально його кодувати, ми кодуємо A як 0 і B як 1, тож отримуємо один біт кодованого повідомлення на одну букву. (І це саме ентропія Шеннона нашого розподілу ймовірностей.)

$P$ $Q=(\tfrac{1}{4},\tfrac{1}{4},\tfrac{1}{4},\tfrac{1}{4})$

— Пьотр Мігдал
джерело

Гарне пояснення, дякую. Однак визначенням вікіпедії є sum_i [p_i * log (q_i)]. Використання 1 / q_i дає кількість можливих станів, отже, log_2 перетворює це на кількість бітів, необхідних для кодування одного символу, але сторінка Вікіпедії описує щось дещо інше.

— redcalx

1 / q_{i}

$1/q_i$

\log (1 / q_{i}) = - \log (q_{i})

$\log(1/q_i)=-\log(q_i)$

Якісно, ​​що таке перехресна ентропія

Якісно, що таке перехресна ентропія