Мінімізація поперечної ентропії часто використовується як навчальна мета в генеративних моделях, де р - справжній розподіл, а q - засвоєний розподіл.
Поперечна ентропія p і q дорівнює ентропії p плюс розбіжності KL між p і q.
H(p,q)=H(p)+DKL(p||q)
Ви можете вважати як константу, оскільки походить безпосередньо з даних тренувань і не засвоюється моделлю. Отже, важливий лише термін розбіжності KL. Мотивація розбіжності KL як відстані між розподілами ймовірностей полягає в тому, що вона повідомляє вам, скільки бітів інформації отримують, використовуючи розподіл p замість наближення q.H(p)p
Зауважте, що дивергенція KL не є належним показником відстані. По-перше, вона не симетрична в p і q. Якщо вам потрібна метрика відстані для розподілу ймовірностей, вам доведеться використовувати щось інше. Але, якщо ви неофіційно вживаєте слово "відстань", то ви можете використовувати дивергенцію KL.