Що стосується заголовку, ідея полягає у використанні взаємної інформації тут і після MI для оцінки "кореляції" (визначеної як "скільки я знаю про A, коли я знаю B") між суцільною змінною та категоріальною змінною. Я розкажу вам свої міркування з цього питання за мить, але перед тим, як порадити вам прочитати це інше питання / відповідь на CrossValided, оскільки він містить корисну інформацію.
Тепер, оскільки ми не можемо інтегруватися через категоричну змінну, нам потрібно дискретизувати безперервну. Це можна зробити досить просто в R, це мова, з якою я робив більшість своїх аналізів. Я вважав за краще використовувати cut
функцію, оскільки вона також має псевдоніми значень, але доступні й інші параметри. Справа в тому, що потрібно апріорі визначити кількість "бункерів" (дискретних станів), перш ніж можна зробити будь-яку дискрецію.
Основна проблема, однак, полягає в іншій: ІМ становить від 0 до ∞, оскільки це нестандартний захід, яка одиниця є бітом. Це дуже важко використовувати його як коефіцієнт кореляції. Частково це можна вирішити, використовуючи глобальний коефіцієнт кореляції , тут і після GCC, що є стандартизованою версією ІМ; GCC визначається наступним чином:
Довідково: формула посилається на Взаємну інформацію як нелінійний інструмент аналізу глобалізації фондового ринку Андрія Діоніо, Rui Menezes & Diana Mendes, 2010.
GCC коливається в межах від 0 до 1, і тому його можна легко використовувати для оцінки кореляції між двома змінними. Проблема вирішена, правда? Ну, начебто. Тому що весь цей процес значною мірою залежить від кількості «бункерів», які ми вирішили використати під час дискретизації. Ось результати моїх експериментів:
На осі у вас є GCC, а на осі x ви маєте кількість бункерів, які я вирішив використовувати для дискретизації. Два рядки стосуються двох різних аналізів, які я провів на двох різних (хоча і дуже схожих) наборах даних.
Мені здається, що використання ІМ загалом і зокрема GCC все ще є суперечливим. Однак ця плутанина може бути результатом помилки з мого боку. У будь-якому випадку я хотів би почути вашу думку з цього приводу (також, чи є у вас альтернативні методи для оцінки кореляції між категоріальною змінною та безперервною?).