Використання взаємної інформації для оцінки кореляції між суцільною змінною та категоріальною змінною

Що стосується заголовку, ідея полягає у використанні взаємної інформації тут і після MI для оцінки "кореляції" (визначеної як "скільки я знаю про A, коли я знаю B") між суцільною змінною та категоріальною змінною. Я розкажу вам свої міркування з цього питання за мить, але перед тим, як порадити вам прочитати це інше питання / відповідь на CrossValided, оскільки він містить корисну інформацію.

Тепер, оскільки ми не можемо інтегруватися через категоричну змінну, нам потрібно дискретизувати безперервну. Це можна зробити досить просто в R, це мова, з якою я робив більшість своїх аналізів. Я вважав за краще використовувати cutфункцію, оскільки вона також має псевдоніми значень, але доступні й інші параметри. Справа в тому, що потрібно апріорі визначити кількість "бункерів" (дискретних станів), перш ніж можна зробити будь-яку дискрецію.

Основна проблема, однак, полягає в іншій: ІМ становить від 0 до ∞, оскільки це нестандартний захід, яка одиниця є бітом. Це дуже важко використовувати його як коефіцієнт кореляції. Частково це можна вирішити, використовуючи глобальний коефіцієнт кореляції , тут і після GCC, що є стандартизованою версією ІМ; GCC визначається наступним чином:

введіть тут опис зображення

Довідково: формула посилається на Взаємну інформацію як нелінійний інструмент аналізу глобалізації фондового ринку Андрія Діоніо, Rui Menezes & Diana Mendes, 2010.

GCC коливається в межах від 0 до 1, і тому його можна легко використовувати для оцінки кореляції між двома змінними. Проблема вирішена, правда? Ну, начебто. Тому що весь цей процес значною мірою залежить від кількості «бункерів», які ми вирішили використати під час дискретизації. Ось результати моїх експериментів:

введіть тут опис зображення

На осі у вас є GCC, а на осі x ви маєте кількість бункерів, які я вирішив використовувати для дискретизації. Два рядки стосуються двох різних аналізів, які я провів на двох різних (хоча і дуже схожих) наборах даних.

Мені здається, що використання ІМ загалом і зокрема GCC все ще є суперечливим. Однак ця плутанина може бути результатом помилки з мого боку. У будь-якому випадку я хотів би почути вашу думку з цього приводу (також, чи є у вас альтернативні методи для оцінки кореляції між категоріальною змінною та безперервною?).

correlation information-theory mutual-information

— Едгар Дербі
джерело

H (X_{i}, X_{j}) \leq H (X_{i}) + H (X_{j})

$H(X_i, X_j) \leq H(X_i) + H(X_j)$

До речі, ось код на випадок, якщо хтось захоче спробувати метод бінінгу.

— zkurtz

Ви не оцінюєте "кореляцію". Ви оцінюєте взаємну інформацію. Один не оцінює іншого; вони - окремі заходи більш загальної концепції об'єднання .

— zkurtz

Можливо, кращий заголовок для цієї посади - "Як найкраще бін суцільної змінної оцінити її взаємну інформацію категоричною змінною?"

— zkurtz

Ось цікавий небілінг-підхід. На жаль, я не можу знайти реалізацію R.

— zkurtz

Існує простіший і кращий спосіб вирішити цю проблему. Категорична змінна фактично є лише набором змінної індикатора. Це основна ідея теорії вимірювань, що така змінна є інваріантною для відновлення категорій, тому не має сенсу використовувати числове маркування категорій у будь-якому вимірі взаємозв'язку між іншою змінною (наприклад, "кореляція") . З цієї причини і міра взаємозв'язку між неперервною змінною та категоріальною змінною повинна повністю базуватися на індикаторних змінних, похідних від останньої.

$X$ $I$ $\phi \equiv \mathbb{P}(I=1)$

C o v (I, X) = E (I X) - E (I) E (X) = ϕ [E (X | I = 1) - E (X)],

$\mathbb{Cov}(I,X) = \mathbb{E}(IX) - \mathbb{E}(I) \mathbb{E}(X) = \phi \left[ \mathbb{E}(X|I=1) - \mathbb{E}(X) \right] ,$

що дає:

C o r r (I, X) = \sqrt{\frac{ϕ}{1 - ϕ}} \cdot \frac{E (X | I = 1) - E (X)}{S (X)} .

$\mathbb{Corr}(I,X) = \sqrt{\frac{\phi}{1-\phi}} \cdot \frac{\mathbb{E}(X|I=1) - \mathbb{E}(X)}{\mathbb{S}(X)} .$

$X$ $I$ $\phi$ $X$ $I=1$

$C$ $1, ..., m$ $C=k$ $I_k \equiv \mathbb{I}(C=k)$

C o r r (I_{k}, X) = \sqrt{\frac{ϕ_{k}}{1 - ϕ_{k}}} \cdot \frac{E (X | C = k) - E (X)}{S (X)} .

$\mathbb{Corr}(I_k,X) = \sqrt{\frac{\phi_k}{1-\phi_k}} \cdot \frac{\mathbb{E}(X|C=k) - \mathbb{E}(X)}{\mathbb{S}(X)} .$

$\mathbb{Corr}(C,X) \equiv (\mathbb{Corr}(I_1,X), ..., \mathbb{Corr}(I_m,X))$

$\sum_k \mathbb{Cov}(I_k,X) = 0$ $X$ $m-1$

$(x_1, c_1), ..., (x_n, c_n)$

{\hat{ϕ}}_{k} \equiv \frac{1}{n} \sum_{i = 1}^{n} I (c_{i} = k) .

$\hat{\phi}_k \equiv \frac{1}{n} \sum_{i=1}^n \mathbb{I}(c_i=k).$

\hat{E} (X) \equiv \bar{x} \equiv \frac{1}{n} \sum_{i = 1}^{n} x_{i} .

$\hat{\mathbb{E}}(X) \equiv \bar{x} \equiv \frac{1}{n} \sum_{i=1}^n x_i.$

\hat{E} (X | C = k) \equiv {\bar{x}}_{k} \equiv \frac{1}{n} \sum_{i = 1}^{n} x_{i} I (c_{i} = k) / {\hat{ϕ}}_{k} .

$\hat{\mathbb{E}}(X|C=k) \equiv \bar{x}_k \equiv \frac{1}{n} \sum_{i=1}^n x_i \mathbb{I}(c_i=k) \Bigg/ \hat{\phi}_k .$

\hat{S} (X) \equiv s_{X} \equiv \sqrt{\frac{1}{n - 1} \sum_{i = 1}^{n} (x_{i} - \bar{x})^{2}} .

$\hat{\mathbb{S}}(X) \equiv s_X \equiv \sqrt{\frac{1}{n-1} \sum_{i=1}^n (x_i - \bar{x})^2}.$

$X$

— Бен - Відновлення Моніки
джерело