Немає найкращої кількості бункерів для оцінки взаємної інформації (ІМ) за допомогою гістограм. Найкращий спосіб - це вибрати його за допомогою перехресної перевірки, якщо можете, або покластися на правило. Саме тому запропоновано багато інших оцінювачів ІМ, які не грунтуються на гістограмах.
Кількість бункерів залежатиме від загальної кількості точок даних n. Вам слід намагатися уникати занадто багато бункерів, щоб уникнути помилок оцінки для спільного розподілу між двома змінними. Вам також слід уникати занадто мало бункерів, щоб можна було фіксувати зв'язок між двома змінними. З огляду на те, що np.histogram2d(x, y, D)
генерується двовимірна гістограма з D
однаковими ширинами для обох, x
і y
я особисто вибрав би:
D=⌊n/5−−−√⌋
У цьому випадку в середньому для двох рівномірно розподілених випадкових величин у вас буде як мінімум
5 бали за кожну клітинку гістограми:
нDХDY≥ 5 ⇒нD2≥ 5 ⇒D2≤ n / 5 ⇒ D = ⌊п / 5---√⌋
Це один з можливих виборів, що моделює підхід адаптивного розподілу, запропонований у
(Cellucci, 2005) . Останній підхід часто використовується для оцінки ІМ для отримання висновку про генетичні мережі: наприклад, у
MIDER .
Якщо у вас багато точок даних ні без відсутніх значень, ви не повинні занадто турбуватися про пошук найкращої кількості бункерів; наприклад, якщоn = 100 , 000. Якщо це не так, ви можете розглянути можливість виправлення ІМ для кінцевих зразків. (Steuer et al., 2002) обговорює деяку корекцію ІМ для завдання генетичної мережі.
Оцінка кількості відходів для гістограми - стара проблема. Можливо, вас зацікавить ця розмова Лауріца Дікмана про оцінку кількості бункерів для ІМ. Ця доповідь заснований на чолі Mike X Коена книги про нейронних тимчасових рядах.
Ви можете вибрати DХ і DY незалежно та використовуйте правило, яке використовується для оцінки кількості бункерів в 1D гістограмах.
Правило Фрідмана-Діаконіса (без припущення щодо розподілу):
DХ= ⌈макс. X- хв Х2 ⋅ IQR ⋅н- 1 / 3⌉
де
IQR- різниця між 75-квантильним і 25-квантильним. Подивіться на це пов’язане питання у
СВ .
Правило Скотта (припущення про нормальність):
DХ= ⌈макс. X- хв Х3,5 ⋅сХ⋅н- 1 / 3⌉
де
сХ - це стандартне відхилення для
Х.
Правило Стерджеса (може занижувати кількість бункерів, але добре для великихн):
DХ= ⌈ 1 +журнал2n ⌉
Важко правильно оцінити ІМ за допомогою гістограм. Ви можете вибрати інший оцінювач:
- Красков кОцінювач NN, який трохи менш чутливий до вибору параметрів: k = 4 або k = 6найближчі сусіди часто використовуються як за замовчуванням. Папір: (Красков, 2003)
- Оцінка ІМ за допомогою ядер (Moon, 1995) .
Є багато пакетів для оцінки ІМ:
- Непараметричне поле для оцінювання ентропії для Python. сайт .
- Інформаційно-динамічний інструментарій на Java, але доступний і для Python. сайт .
- Пакет інструментів ITE в Matlab. сайт .