Інтуїтивно, чому перехресна ентропія є мірою відстані двох розподілів ймовірностей?


11

Для двох дискретних розподілів і поперечна ентропія визначається якpq

H(p,q)=xp(x)logq(x).

Цікаво, чому це була б інтуїтивна міра відстані між двома розподілами ймовірностей?

Я бачу, що - ентропія , яка вимірює "здивування" . - міра, яка частково замінює на . Я досі не розумію інтуїтивного значення, що стоїть за визначенням.H(p,p)ppH(p,q)pq


1
Я рекомендую вам підібрати математичне визначення метрики (і відстані). як правило, дотримання цих властивостей - це мінімальна річ, яку повинна дотримуватися функція, - це відстань. Сподіваюся, це допомагає. Хоча здається, що . Інтуїтивно, оскільки його функція, яка є частиною дивергенції KL, я вважаю, що це різновид дивергенції p і q, зрушена ентропією p. Хоча, це лише здогадка. Крім того, розбіжність не є метрикою / відстані, тому я буду здивований, якщо перехресна ентропія. H(p,q)=H(p)+DKL(p||q)
Чарлі Паркер

Тоді розуміння розбіжності Kullback_leibler
kjetil b halvorsen

1
Ось чудове відео, що пояснює KL Divergence чітко та просто: youtube.com/watch?v=ErfnhcEV1O8
Кетрін Чен

Подивіться, чи допомагає ця "інтуїція за перехресною ентропією": medium.com/@siddharth.4oct/…
Siddharth Roy

Відповіді:


6

Мінімізація поперечної ентропії часто використовується як навчальна мета в генеративних моделях, де р - справжній розподіл, а q - засвоєний розподіл.

Поперечна ентропія p і q дорівнює ентропії p плюс розбіжності KL між p і q.

H(p,q)=H(p)+DKL(p||q)

Ви можете вважати як константу, оскільки походить безпосередньо з даних тренувань і не засвоюється моделлю. Отже, важливий лише термін розбіжності KL. Мотивація розбіжності KL як відстані між розподілами ймовірностей полягає в тому, що вона повідомляє вам, скільки бітів інформації отримують, використовуючи розподіл p замість наближення q.H(p)p

Зауважте, що дивергенція KL не є належним показником відстані. По-перше, вона не симетрична в p і q. Якщо вам потрібна метрика відстані для розподілу ймовірностей, вам доведеться використовувати щось інше. Але, якщо ви неофіційно вживаєте слово "відстань", то ви можете використовувати дивергенцію KL.


1
чому ви можете думати про p як постійну? Чого ти «вчишся»? q? Оригінальне запитання нічого не говорило про навчання, тому мені було б цікаво зрозуміти, що ви мали на увазі :)
Чарлі Паркер

2
редагував це, щоб зробити його більш зрозумілим. p - розподіл, що виходить із даних про навчання, а q засвоюється моделлю.
Аарон
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.