Евристично, функція щільності ймовірностей на з максимальною ентропією виявляється такою, яка відповідає найменшому знанню , іншими словами - Уніфікований розподіл.{ х 1 , х 2 , . . , . x n }{x1,x2,..,.xn}{x1,x2,..,.xn}
Тепер для більш офіційного доказу врахуйте наступне:
Функція густини ймовірностей на - це набір негативних дійсних чисел які складають до 1. Ентропія - це неперервна функція пар , і ці точки лежать у компактному підмножині , тому існує -tuple, де ентропія максимальна. Ми хочемо показати, що це відбувається в і більше ніде.р 1 , . . . , Р п п ( р 1 , . . . , Р п ) Р н п ( 1 / п , . . . , 1 / п ){x1,x2,..,.xn}p1,...,pnn(p1,...,pn)Rnn(1/n,...,1/n)
Припустимо, не всі рівні, скажімо, . (Ясно, що ) Ми знайдемо нову щільність ймовірностей з більшою ентропією. Потім випливає, оскільки ентропія максимізована в деякому -парі, ця ентропія однозначно максимізована в -tuple з для всіх .p 1 < p 2 n ≠ 1 n n p i = 1 / n ipjp1< р2n ≠ 1ннpi= 1 / ni
Оскільки , для малого позитивного маємо . Ентропія мінус ентропія дорівнює ε р 1 + ε < р 2 - ε { р 1 + ε , р 2 - ε , р 3 , . . . , Р п } { р 1 , р 2 , р 3 , . . . , p n }p1< р2εp1+ ε < p2- ε{ р1+ ε , стор2- ε , с3, . . . , сторн}{ р1, стор2, стор3, . . . , сторн}
ε-p1log(1+ε
- с1журнал( с1+ εp1) -εжурнал( с1+ ε ) - с2журнал( с2−εp2)+εlog(p2−ε)
Щоб завершити доказ, ми хочемо показати, що це є позитивним для досить малого . Перепишіть вищевказане рівняння як
ε−p1log(1+εp1)−ε(logp1+log(1+εp1))−p2log(1−εp2)+ε(logp2+log(1−εp2))
Нагадаючи, що для малого , вищевказане рівняння
який є позитивним, коли досить малий, оскільки .x - ε - ε log p 1 + ε + ε log p 2 + O ( ε 2 ) = ε log ( p 2 / p 1 ) + O ( ε 2 ) ε p 1 < p 2log(1+x)=x+O(x2)x
−ε−εlogp1+ε+εlogp2+O(ε2)=εlog(p2/p1) + O ( ε2)
εp1< р2
Менш жорстким доказом є наступне:
Розглянемо спочатку наступну лему:
Нехай і неперервні функції щільності ймовірності на інтервалі
в дійсних числах, з і на . У нас є
якщо існують обидва інтеграли. Більше того, існує рівність тоді і лише тоді, коли для всіх .q ( x ) I p ≥ 0 q > 0 I - ∫ I p log p d x ≤ - ∫ I p log q d x p ( x ) = q ( x ) xp ( x )q( х )Яp ≥ 0q> 0Я
- ∫Яp журналур. дx ≤ - ∫Яp журналуqгх
p ( x ) = q( х )х
Нехай - будь-яка функція густини ймовірностей на , з . Нехай для всіх ,
що є ентропією . Тому наша лема говорить , при рівності тоді і тільки тоді, коли є рівномірним.{ х 1 , . . . , x n } p i = p ( x i ) q i = 1 / n i - n ∑ i = 1 p i log q i = n ∑ i = 1 p i log n = log n q h ( p ) ≤ h ( q )p{ х1, . . . , хн}pi= р ( хi)qi= 1 / ni
- ∑i = 1нpiжурналqi= ∑i = 1нpiжурналn = журналн
qh ( p ) ≤ h ( q)p
Також у Вікіпедії є коротка дискусія з цього приводу: wiki