Чому перехресна ентропія стала функцією стандартної втрати класифікації, а не розбіжністю Кульбека Лейблера?

15

Поперечна ентропія ідентична дивергенції KL плюс ентропії розподілу цілі. KL дорівнює нулю, коли два розподіли однакові, що здається мені більш інтуїтивним, ніж ентропія цільового розподілу, що є перехресною ентропією на збігу.

Я не кажу, що в одній іншій інформації більше, за винятком того, що людський погляд може виявити нуль більш інтуїтивним, ніж позитивний. Звичайно, зазвичай використовується метод оцінювання, щоб реально побачити, наскільки добре відбувається класифікація. Але чи є вибір перехресної ентропії над KL історичним?

machine-learning classification

— Джош Альберт
джерело

12

Що стосується проблеми класифікації в машинному навчанні, то крос-ентропія та дивергенція KL рівні . Як вже було зазначено у питанні, загальна формула така:

H (p, q) = H (p) + D_{K L} (p | | q)

$H(p, q) = H(p) + D_{KL}(p||q)$

Якщо $p$ - "істинне" розподіл, а $q$ - оціночне розподіл, $H(p, q)$ - перехресна ентропія, $H(p)$ - ентропія і $D$ - розбіжність Куллбека-Лейблера.

Зауважимо, що в машинному навчанні $p$ - це гаряче представлення класу "основна істина", тобто

p = [0, . . ., 1, . . ., 0]

$p = [0,..., 1, ..., 0]$

що в основному є дельта-функцією розподілом . Але ентропія дельта-функції дорівнює нулю, отже, розбіжність KL просто дорівнює крос-ентропії.

Насправді, навіть якщо $H(p)$ не було $0$ (наприклад, м'які мітки), він фіксований і не має внеску в градієнт. З точки зору оптимізації, це безпечно просто видалити та оптимізувати розбіжність Kullback-Leibler.

— Максим
джерело

0

Перехресна ентропія - це ентропія, а не ентропійна різниця.

Більш природний і, можливо, інтуїтивний спосіб концептуалізації критеріїв категоризації - це через співвідношення, а не визначення.

$H(P, Q) - H(P) = D_{\mathrm{KL}}(P\|Q) = - \sum_i P(i) \log\frac{Q(i)}{P(i)}$

This follows parallels, identified by Claude Shannon with John von Neumann, between quantum mechanical thermodynamics and information theory. Entropy is not an absolute quantity. It is a relative one, so neither entropy nor cross entropy can be calculated, but their difference can be for either the discrete case above or its continuous sibling below.

$H(P, Q) - H(P) = D_{\mathrm{KL}}(P\|Q) = - \int_{-\infty}^\infty \, p(x) \log\frac {q(x)} {p(x)} \, dx$

Although we may see $H(...) = ...$ in the literature, with no H'(...) on the right hand side of the equation, it is not technically accurate. In such cases there is always some implied entropy to which the entropy on the left hand side is relative.

— FauChristian
джерело