Чому ентропія максимальна, коли розподіл ймовірностей рівномірний?


32

Я знаю, що ентропія є мірою випадковості процесу / змінної, і її можна визначити наступним чином. для випадкової величини множині : - . У книзі про ентропію та теорію інформації Маккея він подає це твердження в Ch2ХАН(Х)=хiА-p(хi)журнал(p(хi))

Ентропія максимальна, якщо р рівномірний.

Інтуїтивно, я можу це зрозуміти, як якщо всі точки даних у множині вибираються з однаковою ймовірністю ( m є кардинальністю множини A ), то випадковість або ентропія збільшуються. Але якщо ми знаємо, що деякі точки в множині A відбуватимуться з більшою ймовірністю, ніж інші (скажімо, у випадку нормального розподілу, де максимальна концентрація точок даних становить навколо середнього і невеликого області стандартного відхилення навколо нього, то випадковість або ентропія повинна зменшуватися.А1/ммАА

Але чи є для цього математичне підтвердження? Як і рівняння для Н(Х) я диференціюю його відносно p(х) і встановлюю його на 0 або щось подібне.

Зі сторони, чи є сполучення між ентропією, що відбувається в теорії інформації, та ентропійними обчисленнями в хімії (термодинаміка)?


2
На це запитання відповідають (попутно) на сайті stats.stackexchange.com/a/49174/919 .
whuber

Я дуже плутаюсь з іншим твердженням, викладеним у книзі Крістофера Єпископа, в якому йдеться про те, що "для єдиної реальної змінної розподіл, який максимально сприймає ентропію, є гауссом". Він також зазначає, що «багатофакторний розподіл з максимальною ентропією для даної коваріації є гауссом». Наскільки ця заява справедлива? Чи не завжди ентропія рівномірного розподілу є максимальною завжди?
користувач76170,

6
Максимізація завжди проводиться з урахуванням обмежень щодо можливого рішення. Коли обмеження полягають у тому, що вся ймовірність повинна вийти за межі визначених меж, максимальний розчин ентропії є рівномірним. Якщо замість цього обмеження полягають у тому, що очікування та дисперсія повинні дорівнювати заздалегідь заданим значенням, рішення МЕ є Гауссом. Заяви, які ви цитуєте, повинні бути зроблені в конкретних контекстах, де ці обмеження були висловлені або принаймні зрозумілі.
whuber

2
Я, мабуть, також повинен зазначити, що слово "ентропія" означає щось інше в гауссовій обстановці, ніж це в оригінальному питанні тут, тому що ми обговорюємо ентропію безперервних розподілів. Ця "диференціальна ентропія" - це інша тварина, ніж ентропія дискретних розподілів. Основна відмінність полягає в тому, що диференціальна ентропія не є інваріантною при зміні змінних.
whuber

Отже, що означає, що максимізація завжди стосується обмежень? Що робити, якщо немає обмежень? Я маю на увазі, чи не може бути таке питання? Який розподіл ймовірностей має максимальну ентропію?
користувач76170

Відповіді:


25

Евристично, функція щільності ймовірностей на з максимальною ентропією виявляється такою, яка відповідає найменшому знанню , іншими словами - Уніфікований розподіл.{ х 1 , х 2 , . . , . x n }{х1,х2,..,.хн}{х1,х2,..,.хн}

Тепер для більш офіційного доказу врахуйте наступне:

Функція густини ймовірностей на - це набір негативних дійсних чисел які складають до 1. Ентропія - це неперервна функція пар , і ці точки лежать у компактному підмножині , тому існує -tuple, де ентропія максимальна. Ми хочемо показати, що це відбувається в і більше ніде.р 1 , . . . , Р п п ( р 1 , . . . , Р п ) Р н п ( 1 / п , . . . , 1 / п ){х1,х2,..,.хн}p1,...,pнн(p1,...,pн)Rнн(1/н,...,1/н)

Припустимо, не всі рівні, скажімо, . (Ясно, що ) Ми знайдемо нову щільність ймовірностей з більшою ентропією. Потім випливає, оскільки ентропія максимізована в деякому -парі, ця ентропія однозначно максимізована в -tuple з для всіх .p 1 < p 2 n 1 n n p i = 1 / n ipjp1<p2н1ннpi=1/нi

Оскільки , для малого позитивного маємо . Ентропія мінус ентропія дорівнює ε р 1 + ε < р 2 - ε { р 1 + ε , р 2 - ε , р 3 , . . . , Р п } { р 1 , р 2 , р 3 , . . . , p n }p1<p2εp1+ε<p2-ε{p1+ε,p2-ε,p3,...,pн}{p1,p2,p3,...,pн}

ε-p1log(1+ε

-p1журнал(p1+εp1)-εжурнал(p1+ε)-p2журнал(p2-εp2)+εжурнал(p2-ε)
Щоб завершити доказ, ми хочемо показати, що це є позитивним для досить малого . Перепишіть вищевказане рівняння як ε
p1log(1+εp1)ε(logp1+log(1+εp1))p2log(1εp2)+ε(logp2+log(1εp2))

Нагадаючи, що для малого , вищевказане рівняння який є позитивним, коли досить малий, оскільки .x - ε - ε log p 1 + ε + ε log p 2 + O ( ε 2 ) = ε log ( p 2 / p 1 ) + O ( ε 2 ) ε p 1 < p 2log(1+x)=x+O(x2)x

-ε-εжурналp1+ε+εжурналp2+О(ε2)=εжурнал(p2/p1)+О(ε2)
εp1<p2

Менш жорстким доказом є наступне:

Розглянемо спочатку наступну лему:

Нехай і неперервні функції щільності ймовірності на інтервалі в дійсних числах, з і на . У нас є якщо існують обидва інтеграли. Більше того, існує рівність тоді і лише тоді, коли для всіх .q ( x ) I p 0 q > 0 I - I p log p d x - I p log q d x p ( x ) = q ( x ) xp(х)q(х)Яp0q>0Я

-Яpжурналpгх-Яpжурналqгх
p(х)=q(х)х

Нехай - будь-яка функція густини ймовірностей на , з . Нехай для всіх , що є ентропією . Тому наша лема говорить , при рівності тоді і тільки тоді, коли є рівномірним.{ х 1 , . . . , x n } p i = p ( x i ) q i = 1 / n i - n i = 1 p i log q i = n i = 1 p i log n = log n q h ( p ) h ( q )p{х1,...,хн}pi=p(хi)qi=1/нi

-i=1нpiжурналqi=i=1нpiжурналн=журналн
qгод(p)год(q)p

Також у Вікіпедії є коротка дискусія з цього приводу: wiki


11
Я захоплююсь зусиллями представити елементарний доказ (без обчислення). Сувора однолінійна демонстрація доступна через зважену нерівність AM-GM , зазначивши, що = при рівності, якщо iff всі рівні, QED. досвід(Н)(1pi)pipi1pi=н1/pi
whuber

Я не розумію, як може дорівнювати . журналнжурналн
user1603472

4
@ user1603472 ти маєш на увазі ? Це тому, щоi=1нpiжурналн=журналнi=1нpiжурналн=журналнi=1нpi=журналн×1
HBeel

@Roland Я витягнув поза сумою, оскільки це не залежить від . Тоді сума дорівнює оскільки - щільність функції масової ймовірності. журналнi1p1,,pн
HBeel

Те саме пояснення з більш детальною інформацією можна знайти тут: math.uconn.edu/~kconrad/blurbs/analysis/entropypost.pdf
Роланд

14

Ентропія у фізиці та теорії інформації не пов'язана між собою. Вони більше відрізняються, ніж випливає з назви, але між ними чітко існує зв’язок. Метою ентропійної метрики є вимірювання кількості інформації. Дивіться мою відповідь з графіками тут, щоб показати, як ентропія змінюється від рівномірного розподілу до горбистого.

Причина того, що ентропія максимізована для рівномірного розподілу, полягає в тому, що вона була розроблена так! Так, ми будуємо міру нестачі інформації, тому ми хочемо віднести її найвищу цінність до найменшого інформаційного розповсюдження.

Приклад. Я запитав у вас " Чувак, де моя машина ?" Ваша відповідь - "це десь у США між Атлантичним та Тихим океанами". Це приклад рівномірного розподілу. Мій автомобіль міг бути де завгодно в США. Я не отримав багато інформації з цієї відповіді.

Однак якщо ви сказали мені: "Я бачив вашу машину годину тому на маршруті 66, що прямував із Вашингтона, округ Колумбія" - це вже не рівномірний розподіл. Автомобіль швидше знаходиться в 60 милях від DC, ніж десь поблизу Лос-Анджелеса. Тут явно більше інформації.

Отже, наша міра повинна мати високу ентропію для першої відповіді та нижчу - для другої. Уніформа повинна мати найменший інформативний розподіл, це в основному відповідь "я не маю уявлення".


7

Математичний аргумент заснований на нерівності Дженсена для увігнутих функцій. Тобто, якщо - увігнута функція на і - точки в , тоді: f(х)[а,б]у1,ун[а,б]нf(у1+унн)f(у1)++f(ун)

Застосуйте це для увігнутої функції та нерівності Дженсена для і у вас є доказ. Зауважте, що визначає дискретний розподіл ймовірностей, тому їх сума дорівнює 1. Що ви отримуєте, це , з рівністю для рівномірного розподілу.f(х)=-хжурнал(х)уi=p(хi)p(хi)лог(н)i=1н-p(хi)лог(p(хi))


1
Я фактично вважаю доказ нерівності Дженсена набагато глибшим доказом концептуально, ніж той, що стосується AM-GM.
Casebash

4

Зі сторони, чи є сполучення між ентропією, що відбувається в теорії інформації, та ентропійними обчисленнями в хімії (термодинаміка)?

Так, є! Ви можете побачити роботи Джейнеса та багатьох інших, що стежать за його роботою (наприклад, тут і тут , наприклад).

Але головна ідея полягає в тому, що статистичну механіку (та й інші галузі науки) також можна розглядати як висновок, який ми робимо про світ .

Для подальшого читання я рекомендую книгу Аріеля Катіхи на цю тему.


1

Інтуїтивне пояснення:

Якщо ми введемо більше маси ймовірності в одну подію випадкової величини, нам доведеться відняти деякі з інших подій. Один матиме менший інформаційний вміст і більше ваги, інший більше інформаційного наповнення та меншу вагу. Тому ентропія, яка є очікуваним інформаційним вмістом, знизиться, оскільки подія з меншим інформаційним вмістом буде зважена більше.

Як крайній випадок, уявіть, що одна подія отримує ймовірність майже однієї, тому інші події матимуть загальну ймовірність майже нуля, а ентропія буде дуже низькою.


0

pi

pii=1,...,нq=1-i=0н-1pi

Н=-i=0н-1piжурналpi-(1-q)журналqНln2=-i=0н-1pilnpi-(1-q)lnq
Нpi=lnqpi=0
q=piip1=p2=...=pн


pi
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.