Як розрахувати розбіжність / відстань Куллбека-Лейблера?


10

У мене є три набори даних X, Y і Z. Кожен набір даних визначає частоту події, що відбувається. Наприклад:

Набір даних X: E1: 4, E2: 0, E3: 10, E4: 5, E5: 0, E6: 0 тощо.
Набір даних Y: E1: 2, E2: 3, E3: 7, E4: 6, E5: 0, E6: 0 і т.
Д. Набір даних Z: E1: 0, E2: 4, E3: 8, E4: 4, E5: 1, E6: 0 тощо.

Я повинен знайти KL-розбіжність між X і Y; і між X і Z. Як ви бачите, для деяких подій буде 0 та ненульове значення. Для деяких подій усі три набори даних дорівнюють 0.

Я був би вдячний, якщо хтось може допомогти мені знайти розбіжність KL для цього. Я не дуже статистик, тому не маю багато уявлення. Підручники, які я дивився в Інтернеті, були занадто складними для мого розуміння.

Відповіді:


11

Щоб відповісти на ваше запитання, слід згадати визначення розбіжності KL :

DKL(Y||X)=i=1Nln(YiXi)Yi

Перш за все, ви повинні піти від розподілу ймовірностей. Для цього слід нормалізувати свої дані таким чином, щоб вони підсумовували до одного:

Xi:=Xii=1NXi ; ; Yi:=Yii=1NYiZi:=Zii=1NZi

Тоді для дискретних значень у нас є одне дуже важливе припущення, яке необхідне для оцінки KL-розбіжності і яке часто порушується:

Xi=0 має означати .Yi=0

У випадку, коли і і дорівнює нулю, приймається рівним нулю (як граничне значення).XiYiln(Yi/Xi)Yi

У вашому наборі даних це означає, що ви можете знайти , але не, наприклад, (через другий запис).DKL(X||Y)DKL(Y||X)

Що я міг би порадити з практичної точки зору:

або зробіть свої події "більшими" такими, що у вас буде менше нулів

або отримаєте більше даних, щоб ви охопили навіть рідкісні події хоча б одним записом.

Якщо ви не можете скористатися жодною з вищезазначених порад, вам, ймовірно, потрібно буде знайти інший показник між дистрибутивами. Наприклад,

Взаємна інформація , визначена як . Де - спільна ймовірність двох подій.I(X,Y)=i=1Nj=1Np(Xi,Yj)ln(p(Xi,Yj)p(Xi)p(Yj))p(Xi,Yi)

Сподіваюся, це допоможе.


0

введіть тут опис зображення

Ви можете встановити \ epsilon на деяке дуже мале значення 0,00001 (скажімо) і продовжити ненульові значення для всіх ймовірностей та обчислити бали KL.

Будь ласка, дайте мені знати, чи це працює.


2
Можна, будь ласка, додати відповідне цитування доданого зображення, якщо воно не є вашим (інакше ви можете використовувати для його набору), а також вказати, як воно застосовується до конкретної проблеми? (ОП чітко заявила, що він не надто розбирається в математичній статистиці.)LATEX
chl
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.