Взаємна інформація проти кореляції


51

Чому і коли ми повинні використовувати Взаємну інформацію для вимірювання статистичних кореляцій, таких як "Пірсон", "Сперман" або "Тау Кендалла"?

Відповіді:


77

Розглянемо одне фундаментальне поняття (лінійної) кореляції, коваріації (що є коефіцієнтом кореляції Пірсона "нестандартним"). Для двох дискретних випадкових величин і з функціями маси ймовірності , та спільних pmf маємоY p ( x ) p ( y ) p ( x , y )ХYp(х)p(у)p(х,у)

Cov(X,Y)=E(XY)E(X)E(Y)=x,yp(x,y)xy(xp(x)x)(yp(y)y)

Cov(X,Y)=x,y[p(x,y)p(x)p(y)]xy

Взаємна інформація між ними визначається як

Я(Х,Y)=Е(lnp(х,у)p(х)p(у))=х,уp(х,у)[lnp(х,у)-lnp(х)p(у)]

Порівняйте два: кожен містить точкову "міру" "відстань двох rv-х від незалежності", як це виражається відстані спільного pmf від добутку граничних pmf: має його як різницю рівнів, а - як різницю логарифмів. I ( X , Y )Ков(Х,Y)Я(Х,Y)

І що роблять ці заходи? У вони створюють зважену суму добутку двох випадкових величин. У вони створюють зважену суму їх спільних ймовірностей.I ( X , Y )Ков(Х,Y)Я(Х,Y)

Тож із ми дивимось на те, що робить незалежність їх продукту, тоді як в ми дивимось, що робить незалежність щодо їх спільного розподілу ймовірностей. I ( X , Y )Ков(Х,Y)Я(Х,Y)

І навпаки, - середнє значення логарифмічної міри відстані від незалежності, тоді як - зважене значення рівнів-міра відстані від незалежності, зважене на добуток двох оборотів.Cov ( X , Y )Я(Х,Y)Ков(Х,Y)

Таким чином, вони не є антагоністичними - вони є взаємодоповнюючими, описуючи різні аспекти асоціації між двома випадковими змінними. Можна сказати, що взаємна інформація "не стосується" того, асоціація лінійна чи ні, тоді як Коваріація може бути нульовою, а змінні все ще можуть бути стохастично залежними. З іншого боку, коваріацію можна обчислити безпосередньо з вибірки даних без необхідності фактично знати пов'язані розподіли ймовірностей (оскільки це вираження, що включає моменти розподілу), тоді як Взаємна інформація вимагає знань про розподіли, оцінка яких, якщо невідомо, є набагато більш делікатною і невизначеною роботою порівняно з оцінкою коваріації.


@ Алекос Пападопулос; Дякую за всебічну відповідь.
SaZa

1
Я задавав собі те саме питання, але відповіді не до кінця зрозумів. @ Алекос Пападопулос: Я зрозумів, що вимірювана залежність не однакова, добре. Тож для яких відносин між X та Y слід віддавати перевагу взаємній інформації I (X, Y), а не Cov (X, Y)? Нещодавно у мене був дивний приклад, коли Y майже лінійно залежав від X (це майже пряма лінія на ділянці розсіяння), а Corr (X, Y) дорівнював 0,87, тоді як I (X, Y) дорівнює 0,45 . Тож чи є явно деякі випадки, коли один показник слід обирати над іншим? Дякуємо за допомогу!
Gandhi91

@ Gandhi91 Якою була ентропія , у цьому конкретному випадку? H ( X )ХН(Х)
Алекос Пападопулос

Це чудова і дуже чітка відповідь. Мені було цікаво, чи є у вас легкодоступний приклад, коли cov дорівнює 0, але pmi - ні.
Танга

@thang. Не зовсім. Слід знайти приклад, коли коваріація дорівнює нулю, і одночасно мати спільний розподіл доступним, щоб обчислити взаємну інформацію (а спільний розподіл не був би продуктом маргіналів, тому що ми хочемо, щоб змінні не були незалежний).
Алекос Пападопулос

7

Взаємна інформація - це відстань між двома розподілами ймовірностей. Кореляція - це лінійна відстань між двома випадковими змінними.

Ви можете мати взаємну інформацію між будь-якими двома ймовірностями, визначеними для набору символів, при цьому ви не можете мати кореляцію між символами, які природним чином не можуть бути відображені в просторі R ^ N

З іншого боку, взаємна інформація не передбачає припущень щодо деяких властивостей змінних ... Якщо ви працюєте зі змінними змінними, кореляція може розповісти вам більше про них; наприклад, якщо їхні стосунки одноманітні.

Якщо у вас є якась попередня інформація, можливо, ви зможете переключитися з однієї на іншу; в медичних записах ви можете відобразити символи "має генотип А" як 1 і "не має генотипу А" на значення 0 і 1 і побачити, чи має це якась форма кореляції з тією чи іншою хворобою. Аналогічно, ви можете взяти змінну, яка є безперервною (наприклад: зарплата), перетворити її в дискретні категорії та обчислити взаємну інформацію між цими категоріями та іншим набором символів.


Кореляція не є лінійною функцією. Чи слід говорити, що кореляція - це міра лінійної залежності між випадковими змінними?
Меттью Ганн

1
Я думаю, що це: "Ви можете мати взаємну інформацію між будь-якими двома ймовірностями, визначеними для набору символів, тоді як ви не можете мати кореляцію між символами, які природним чином не можуть бути відображені в просторі R ^ N", ймовірно, є ключовим. Corr не має сенсу, якщо у вас немає повної випадкової змінної; проте, pmi має сенс навіть із просто PDF-файлом та сигмою (пробіл). Ось чому в багатьох додатках, де RV не мають сенсу (наприклад, NLP), використовується pmi.
thang

6

Ось приклад.

У цих двох графіках коефіцієнт кореляції дорівнює нулю. Але ми можемо отримати високу спільну взаємну інформацію навіть тоді, коли кореляція дорівнює нулю.

По-перше, я бачу, що якщо у мене високе або низьке значення X, я, швидше за все, отримаю високе значення Y. Але якщо значення X є помірним, то у мене є низьке значення Y. Перший сюжет містить інформацію про взаємну інформацію, яку поділяють X і Y. У другому сюжеті X нічого не розповідає про Y.

Взаємна інформація проти кореляції


4

Хоча обидва вони є мірою взаємозв'язку між ознаками, ІМ є загальнішим, ніж коефіцієнт кореляції (СЕ), оскільки СЕ здатний враховувати лише лінійні відносини, але ІМ також може обробляти нелінійні зв’язки.


Це не правда. Коефіцієнт кореляції Пірсона передбачає нормальність та лінійність двох випадкових величин, таких альтернатив, як непараметрична Спірмена. Існує лише монотонність між двома обертами.
мяв
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.