Що нам говорить ентропія?


32

Я читаю про ентропію і важко розумію, що це означає у безперервному випадку. На сторінці вікі зазначено наступне:

Розподіл ймовірностей подій у поєднанні з інформаційною кількістю кожної події утворює випадкову змінну, очікуваним значенням якої є середня кількість інформації, або ентропія, що генерується цим розподілом.

Отже, якщо я обчислюю ентропію, пов'язану з розподілом вірогідності, який є безперервним, що це насправді говорить? Вони дають приклад про гортання монет, тому дискретний випадок, але якщо є інтуїтивно зрозумілий спосіб пояснити такий приклад у безперервному випадку, це було б чудово!

Якщо це допомагає, визначення ентропії для безперервної випадкової величини таке:X

H(X)=P(x)logbP(x)dx
де - функція розподілу ймовірностей.P(x)

Щоб спробувати зробити це більш конкретним, розглянемо випадок , тоді, згідно Вікіпедії , ентропія - цеXGamma(α,β)

H(X)=E[ln(P(X))]=E[αln(β)+ln(Γ(α))+ln(Γ(α))(α1)ln(X)+βX]=αln(β)+ln(Γ(α))+(1α)(ddαln(Γ(α)))

І тому тепер ми обчислили ентропію для безперервного розподілу (розподілу Гамми), і тому, якщо я зараз оцінюю цей вираз, , з урахуванням та , що ця кількість насправді говорить мені? H(X)αβ


5
(+1) Ця цитата посилається на справді невдалий уривок. Це намагається кропітками та непрозорими способами описати та інтерпретувати математичне визначення ентропії. Це визначення - . Його можна розглядати як математичне очікування , де є PDF випадкової величини . Він намагається охарактеризувати як "кількість інформації", пов'язану з числом . f(x)log(f(x))dxlog(f(X))fXlog(f(x))x
whuber

5
Варто запитати, тому що є делікатне, але важливе технічне питання: безперервна версія ентропії не зовсім володіє тими ж властивостями, що й дискретна версія (яка має природну, інтуїтивну інтерпретацію щодо інформації). @Tim AFAIK, цей потік з Математики стосується лише дискретного випадку.
whuber

1
@RustyStatistician вважає як про те, як дивує результат x. Потім ви підраховуєте очікуваний сюрприз. log(f(x))
Адріан

3
Повторне технічне питання @whuber посилання, це може зацікавити.
Шон Пасха

3
У разі , якщо ви зацікавлені в технічних: Ентропії є на основі від псевдометрікі називається дивергенція Кульбака-Лейблер , який використовується для опису відстаней між подіями у відповідній мірі, см projecteuclid.org/euclid.aoms/1177729694 для оригіналу ( і грубозахисний) папір Kullback і Leibler. Концепція також з’являється в таких критеріях вибору моделі, як AIC та BIC.
Jeremias K

Відповіді:


31

Ентропія повідомляє, скільки невизначеностей у системі. Скажімо, ви шукаєте кота, і ви знаєте, що він знаходиться десь між вашим будинком та сусідами, що за 1 милю. Ваші діти говорять вам, що вірогідність того, що кішка перебуває на відстані від вашого будинку, найкраще описується шляхом бета-розподілу . Таким чином, кішка може бути десь від 0 до 1, але більше шансів бути посередині, тобто .x f(x;2,2)xmax=1/2

введіть тут опис зображення

Давайте підключіть бета-розподіл до вашого рівняння, тоді ви отримаєте .H=0.125

Далі ви запитуєте свою дружину, і вона каже вам, що найкращий розподіл для опису її знань про вашу кішку - це рівномірний розподіл. Якщо ви підключите його до рівняння ентропії, ви отримаєте .H=0

Як рівномірний, так і бета-розподіл дозволяють кішці знаходитися де-небудь від 0 до 1 милі від вашого будинку, але в уніформі є більше невизначеності, оскільки ваша дружина насправді не має уявлення, де ховається кішка, а діти мають якусь ідею , вони думають, що це більше швидше за все, десь посередині. Тому ентропія Бета нижча, ніж уніформа.

введіть тут опис зображення

Ви можете спробувати інші дистрибуції, можливо, ваш сусід каже вам, що кіт любить бути поруч із будь-яким із будинків, тому його бета-розподіл з . Її повинен бути знову нижчим, ніж у мундиру, тому що ви отримуєте деяке уявлення про те, де шукати кота. Здогадайтесь, чи інформація ентропії вашого сусіда вище чи нижче, ніж у дітей? Я б колись робив ставку на дітей на ці питання.α=β=1/2H

введіть тут опис зображення

ОНОВЛЕННЯ:

Як це працює? Один із способів думати про це - почати з рівномірного розподілу. Якщо ви згодні, що це найбільше невизначеність, тоді подумайте, як це порушити. Давайте розглянемо дискретний випадок простоти. Візьміть від однієї точки і додайте її до іншої так: Δp

pi=pΔp
pj=p+Δp

Тепер давайте подивимося, як змінюється ентропія: Це означає, що будь-яке порушення від рівномірного розподілу зменшує ентропію (невизначеність). Щоб показати те саме в безперервному випадку, мені доведеться використовувати числення варіацій або щось подібне, але ви отримаєте такий же результат, як правило.

HH=pilnpipiln(piΔp)+pjlnpjpjln(pj+Δp)
=plnppln[p(1Δp/p)]+plnppln[p(1+Δp/p)]
=ln(1Δp/p)ln(1+Δp/p)>0

ОНОВЛЕННЯ 2: Середнє значення рівномірних випадкових змінних є самою випадковою змінною, і це від розподілу Bates . З CLT ми знаємо, що дисперсія цієї нової випадкової змінної зменшується як . Отже, невизначеність його розташування повинна зменшуватися зі збільшенням : ми все більше і більше впевнені, що кішка посередині. Мій наступний графік та код MATLAB показує, як ентропія зменшується з 0 для (рівномірний розподіл) до . Тут я використовую бібліотеку distributions31 .nnnn=1n=13

введіть тут опис зображення

x = 0:0.01:1;
for k=1:5
    i = 1 + (k-1)*3;
    idx(k) = i;
    f = @(x)bates_pdf(x,i);
    funb=@(x)f(x).*log(f(x));
    fun = @(x)arrayfun(funb,x);
    h(k) = -integral(fun,0,1);
    subplot(1,5+1,k)

    plot(x,arrayfun(f,x))
    title(['Bates(x,' num2str(i) ')'])
    ylim([0 6])
end

subplot(1,5+1,5+1)
plot(idx,h)
title 'Entropy'

1
(+1) Я зачекаю, щоб побачити інші інтерпретації, але мені це дуже подобається. Тож здається, що ви можете використовувати ентропію як міру впевненості, що вам потрібно порівняти її з іншими розподілами? Тобто, число саме по собі не говорить вам багато?
RustyStatistician

1
@RustyStatistician, я б не сказав, що його абсолютне значення є абсолютно безглуздим. Але так, це найкорисніше, коли використовується для порівняння станів системи. Найпростіший спосіб інтерналізації ентропії - це сприймати це як міру невизначеності
Аксакал,

Проблема з цією відповіддю полягає в тому, що термін "невизначеність" залишається невизначеним.
kjetil b halvorsen

1
термін залишається невизначеним
Аксакал

Це дуже приємно.
Астрід

1

Я хотів би додати пряму відповідь на це питання:

що насправді говорить ця кількість?

Інтуїтивно зрозуміти це в дискретному сценарії. Припустимо, що ви кидаєте сильно упереджену монету, кажучи, що ймовірність побачити голову на кожному перевороті становить 0,99. Кожен фактичний фліп дає вам дуже мало інформації, оскільки ви вже майже знаєте, що це буде голова. Але якщо мова йде про більш справедливу монету, вам не важче мати ідею, чого очікувати, тоді кожен фліп повідомляє вам більше інформації, ніж будь-яка більш упереджена монета. Кількість інформації, отриманої в результаті спостереження за одним жеребом, прирівнюється до .log1p(x)

Що нам говорить кількість ентропії - це інформація, яку може передати кожне фактичне перевертання (середньозважене) : . Чим справедливіша монета, тим більша ентропія, і цілком справедлива монета буде максимально інформативною.Elog1p(x)=p(x)log1p(x)

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.