Я подумаю в цьому, хоча це трохи вище моєї голови, тому пригощайте посипкою сіллю ...
Ви не зовсім помиляєтесь. Я думаю, що там, де ваш думковий експеримент падає, це те, що диференціальна ентропія не є обмежувальним випадком ентропії. Я здогадуюсь, що через це втрачаються паралелі між нею і складністю Колмогорова.
Припустимо, ми маємо дискретну випадкову величину . Ми можемо обчислити його ентропію Шеннона наступним чином шляхом підсумовування всіх можливих значень ,
x i H ( X ) = - ∑ i P ( X = x i ) log ( P ( X = x i ) ) .Xxi
H(X)=−∑iP(X=xi)log(P(X=xi)).
Поки що нудно. Тепер скажемо, що - це кількісна версія неперервної випадкової величини - скажімо, у нас є функція щільності яка генерує вибірки з набору дійсних чисел, і ми перетворюємо це на гістограму. У нас буде досить тонка гістограма, що функція щільності по суті лінійна. У такому випадку у нас відбудеться ентропія щось подібне,
де - ширина наших гістограм, а - середина кожного. У нас є логарифм продукту - давайте розділимо його та використаємо властивість розподілів ймовірностей, що підсумовують 1, щоб перемістити його за межі підсумовування, давши нам
Xp()
H(X)≈−∑ip(X=xi)δxlog(p(X=xi)δx),
δxxiH(X)≈−log(δx)−∑ip(X=xi)δxlog(p(X=xi)).
Якщо ми візьмемо обмеження, відпустивши і перетворивши підсумок в інтеграцію, наше наближення стає точним, і отримаємо наступне,
δx→dx
H(X)=−log(dx)−∫xp(X=x)log(p(X=x))dx.
Термін у правій частині - це диференціальна ентропія. Але подивіться на цей жахливий термін. Ми повинні ігнорувати це, щоб усі наші відповіді не були NaN. Боюся, це означає, що диференціальна ентропія не є обмежувальним випадком ентропії Шеннона.log(dx)
Отже, ми втрачаємо деякі властивості. Так, зміни масштабу ваших даних змінює диференціальну ентропію - диференціальна ентропія - це міра того, наскільки 'щільно упакований' pdf. Якщо змінити його масштаб, то це зміниться. Ще одна цікава властивість полягає в тому, що вона може стати негативною, на відміну від ентропії Шеннона - спробуйте налаштувати дійсно дуже мало і побачити, що відбувається. Втрата посилання на складність Колмогорова, я думаю, це лише черговий випадок.σ
На щастя, ми не зовсім загублені. Кулбек-Лейблер розбіжності і, розширюючи взаємну інформацію, досить добре поводяться, оскільки всі відміняються. Наприклад, ви можете обчислити
де - деякий еталонний розподіл - скажімо, рівномірний. Це завжди позитивно, і коли ви змінюєте масштаб змінної вона змінюється як і , тому результати набагато менш серйозні.δ
∫xp(X=x)log(p(X=x)q(X=x))dx
q(X)Xp(X)q(X)