Збільшення інформації, взаємна інформація та пов'язані з цим заходи


33

Ендрю Морі визначає приріст інформації як:

IG(Y|X)=H(Y)H(Y|X)

де - умовна ентропія . Однак Вікіпедія називає вищезазначену кількість взаємною інформацією .H(Y|X)

Вікіпедія, з іншого боку, визначає приріст інформації як розбіжність Куллбека – Лейблера (відома також як розбіжність інформації або відносна ентропія) між двома випадковими змінними:

DKL(P||Q)=H(P,Q)H(P)

де визначається як перехресна ентропія .H(P,Q)

Ці два визначення, здається, суперечать один одному.

Я також бачив інших авторів, які говорять про дві додаткові пов'язані концепції, а саме: диференційну ентропію та відносний приріст інформації.

Яке точне визначення або співвідношення між цими величинами? Чи є хороша книга з текстами, яка охоплює їх усіх?

  • Інформаційний приріст
  • Взаємна інформація
  • Поперечна ентропія
  • Умовна ентропія
  • Диференціальна ентропія
  • Відносний інформаційний приріст

2
Для подальшого додавання плутанини зауважте, що позначення, які ви використовували для перехресної ентропії, - це також те саме позначення, яке використовується для спільної ентропії. Я використовував для перехресної ентропії, щоб не плутати себе, але це для моєї користі, і я ніколи не бачив цього позначення деінде. Hx(P,Q)
Майкл МакГоуан

Відповіді:


24

Я вважаю, що називати розбіжність Куллбека-Лейблера «інформаційним прирістком» нестандартно.

Перше визначення є стандартним.

EDIT: Однак також можна назвати взаємною інформацією.H(Y)H(Y|X)

Зауважте, що я не думаю, що ви знайдете будь-яку наукову дисципліну, яка справді має стандартизовану, точну та послідовну схему іменування. Тож вам завжди доведеться подивитися на формули, адже вони, як правило, дадуть вам кращу думку.

Підручники: див. "Гарне введення в різні види ентропії" .

Також: Cosma Shalizi: Методи та методики комплексних системних наук: огляд, глава 1 (с. 33--114) у Thomas S. Deisboeck та J. Yasha Kresh (ред.), Комплексна наука про біомедицину http: // arxiv.org/abs/nlin.AO/0307015

Роберт М. Грей: Ентропія та теорія інформації http://ee.stanford.edu/~gray/it.html

Девід Маккай: Теорія інформації, умовиводи та алгоритми навчання http://www.inference.phy.cam.ac.uk/mackay/itila/book.html

також "Що таке" ентропія та отримання інформації "?"


Дякую @wolf. Я схильний прийняти цю відповідь. Якщо перше визначення є стандартним, як би ви визначили взаємну інформацію?
Амеліо Васкес-Рейна

2
вибачте. перша кількість, також часто називають взаємною інформацією. Це випадок непослідовного називання. Як я вже говорив, я не думаю, що існує одна послідовна, однозначна відповідність понять і назв. Наприклад, "взаємна інформація" або "отримання інформації" є особливим випадком розбіжності KL, так що ця стаття у Вікіпедії не така вже й далеко. IG(Y|X)=H(Y)H(Y|X)
wolf.rauch

4

p(X,Y)P(X)P(Y)

I(X;Y)=H(Y)H(YX)=yp(y)logp(y)+x,yp(x)p(yx)logp(yx)=x,yp(x,y)logp(yx)y(xp(x,y))logp(y)=x,yp(x,y)logp(yx)x,yp(x,y)logp(y)=x,yp(x,y)logp(yx)p(y)=x,yp(x,y)logp(yx)p(x)p(y)p(x)=x,yp(x,y)logp(x,y)p(y)p(x)=DKL(P(X,Y)∣∣P(X)P(Y))

p(y)=xp(x,y)


1

Mutual information can be defined using Kullback-Liebler as

I(X;Y)=DKL(p(x,y)||p(x)p(y)).

1

Витяг взаємної інформації з текстових наборів даних як особливість для навчання моделі машинного навчання: (завдання було передбачити вік, стать та особистість блогерів)

введіть тут опис зображення


1

Both definitions are correct, and consistent. I'm not sure what you find unclear as you point out multiple points that might need clarification.

Firstly: MIMutualInformation IGInformationGainIInformation are all different names for the same thing. In different contexts one of these names may be preferable, i will call it hereon Information.

The second point is the relation between the Kullback–Leibler divergence-DKL, and Information. The Kullback–Leibler divergence is simply a measure of dissimilarity between two distributions. The Information can be defined in these terms of distributions' dissimilarity (see Yters' response). So information is a special case of KLD, where KLD is applied to measure the difference between the actual joint distribution of two variables (which captures their dependence) and the hypothetical joint distribution of the same variables, were they to be independent. We call that quantity Information.

The third point to clarify is the inconsistent, though standard notation being used, namely that H(X,Y) is both the notation for Joint entropy and for Cross-entropy as well.

So, for example, in the definition of Information:

in both last lines, H(X,Y) is the joint entropy. This may seem inconsistent with the definition in the Information gain page however: DKL(P||Q)=H(P,Q)H(P) but you did not fail to quote the important clarification - H(P,Q) is being used there as the cross-entropy (as is the case too in the cross entropy page).

Joint-entropy and Cross-entropy are NOT the same.

Check out this and this where this ambiguous notation is addressed and a unique notation for cross-entropy is offered - Hq(p)

I would hope to see this notation accepted and the wiki-pages updated.


wonder why the equations are not displayed properly..
Shaohua Li
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.