Чому ми використовуємо дивергенцію Куллбека-Лейблера, а не перехресну ентропію в цільовій функції t-SNE?


39

На мій погляд, розбіжність KL від розподілу вибірки до справжнього розподілу - це просто різниця між перехресною ентропією та ентропією.

Чому ми використовуємо перехресну ентропію як функцію витрат у багатьох моделях машинного навчання, а використовуємо дивергенцію Kullback-Leibler в t-sne? Чи є різниця в швидкості навчання?


1
Ознайомтеся з інформацією про KL: stats.stackexchange.com/questions/188903/…
kjetil b halvorsen

Відповіді:


81

Дивергенція KL є природним способом вимірювання різниці між двома розподілами ймовірностей. Ентропія розподілу p дає мінімально можливу кількість біт на повідомлення, яка знадобиться (в середньому) для кодування втрат, що втрачаються з p . Досягнення цієї межі потребує використання оптимального коду, розробленого для p , який присвоює коротші слова коду подіям з більшою ймовірністю. D K L ( p q ) можна інтерпретувати як очікувану кількість зайвих біт на повідомлення, необхідні для кодування подій, отриманих з істинного розподілу pH(p)pppDKL(pq)p, якщо використовується оптимальний код для розподілу а не p . Він має деякі приємні властивості для порівняння розподілів. Наприклад, якщо р і q рівні, то розбіжність KL дорівнює 0.qppq

Перехресна ентропія може бути інтерпретована як кількість біт на повідомлення, необхідне (в середньому) для кодування подій, отриманих з істинного розподілу p , якщо використовується оптимальний код для розподілу q . Зверніть увагу на різницю: D K L ( p q ) вимірює середню кількість зайвих біт на повідомлення, тоді як H ( p , q ) вимірює середню кількість загальних бітів на повідомлення. Це правда, що для фіксованого p , H ( pH(p,q)pqDKL(pq)H(p,q)p зростатиме, коли q все більше відрізняється від p . Але, якщо p не вважається фіксованим, важко інтерпретувати H ( p , q ) як абсолютний показник різниці, оскільки він росте з ентропією p .H(p,q)qppH(p,q)p

Дивергенція KL та поперечна ентропія пов'язані як:

DKL(pq)=H(p,q)H(p)

З цього виразу ми бачимо, що коли і q рівні, кросова ентропія не дорівнює нулю; скоріше, це дорівнює ентропії p .pqp

Перехресна ентропія зазвичай виявляється у функціях втрат при машинному навчанні. У багатьох із цих ситуацій трактується як "справжній" розподіл, а q як модель, яку ми намагаємося оптимізувати. Наприклад, у проблемах класифікації загальновживана поперечна ентропійна втрата (ака логічна втрата ) вимірює поперечну ентропію між емпіричним розподілом міток (з урахуванням входів) та розподілом, передбаченим класифікатором. Емпіричний розподіл для кожної точки даних просто призначає ймовірність 1 класу цієї точки даних, а 0 - всім іншим класам. Бічна примітка: перехресна ентропія в цьому випадку виявляється пропорційною негативній ймовірності журналу, тому мінімізація її еквівалентна максимальній імовірності.pq

Зауважимо, що (емпіричний розподіл у цьому прикладі) фіксований. Отже, було б рівнозначно сказати, що ми мінімізуємо розбіжність KL між емпіричним розподілом та прогнозованим розподілом. Як ми можемо бачити в виразі вище, два пов'язані адитивним терміном H ( p ) (ентропія емпіричного розподілу). Оскільки p фіксовано, H ( p )pH(p)pH(p)не змінюється з параметрами моделі, і її можна не враховувати у функції втрат. Ми можемо ще хотіти говорити про розбіжність KL з теоретичних / філософських причин, але в цьому випадку вони рівнозначні з точки зору вирішення проблеми оптимізації. Це може бути невірно для інших застосувань перехресної ентропії та дивергенції KL, де може відрізнятися.p

pqDKL(pq)pqjipji - це дивергенція Куллбека-Лейблера (яка в цьому випадку дорівнює поперечній ентропії аж до постійної добавки) ".

van der Maaten and Hinton (2008) . Візуалізація даних за допомогою t-SNE.


Чи можу я якось "улюблені" відповіді? Я хочу врятувати це, тому що це дуже приємне пояснення
zwep

1
Дякую, радий, що тобі корисно. Ви можете позначити питання як улюблене, щоб зберегти всю нитку, натиснувши на значок зірки під кнопками голосування. Ви можете переглянути свій список обраних на сторінці свого облікового запису.
користувач20160
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.