Статистичне тлумачення максимального ентропійного розподілу


23

Я використав принцип максимальної ентропії для обгрунтування використання декількох розподілів у різних налаштуваннях; однак мені ще не вдається сформулювати статистичну, на відміну від інформаційно-теоретичної інтерпретації максимальної ентропії. Іншими словами, що означає максимізація ентропії щодо статистичних властивостей розподілу?

Хтось наткнувся чи, можливо, виявив собі статистичну інтерпретацію макс. ентропійні розподіли, які не звертаються до інформації, а лише до ймовірнісних понять?

Як приклад такої інтерпретації (не обов'язково істинної): "Для інтервалу довільної довжини L для області RV (якщо вважати його 1-d безперервним для простоти) максимальна ймовірність, яка може міститися в цьому інтервалі, зводиться до мінімуму за максимальним розподілом ентропії. "

Отже, ви бачите, що не йдеться про "інформативність" чи інші більш філософські ідеї, просто ймовірнісні наслідки.


3
Я думаю, що ви повинні бути більш конкретними щодо того, що ви шукаєте: ентропія зрештою є "статистичною" мірою, як дисперсія тощо, тому максимальний розподіл ентропії збільшує ентропію - це абсолютно хороший статистичний опис. Тож мені здається, вам доведеться виходити за межі статистики, щоб придумати "виправдання"
seanv507

1
Шонв: Я погоджуюся, що ентропія, як статистичний функціонал, така ж "статистична", як дисперсія, очікуване значення, перекос і т.д. одна з ряду центральних граничних теорем, а також інтуїтивно, як суми довгого пробігу (для середнього значення) та помилки RMS (для стандартного відхилення). Можливо, я повинен перефразувати своє запитання, щоб прочитати "Імовірнісне тлумачення максимальних розподілів ентропії".
Аніка

1
Annika, максимальний розподіл ентропії має таку інтерпретацію: Якщо є iid випадковими змінними, то умовна пробалітність як де - максимальний розподіл ентропії з множини . Дивіться також ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=1056374&tag=1P ( | X 1 + + X n = n a ) P ( ) n P { P : E P X = a }Х1,Х2,П(|Х1++Хн=на)П()нП{П:ЕПХ=а}
Ashok

2
Спасибі Ашок. Я розгляну цей документ більш докладно. Це здається конкретним випадком максимізації ентропії для заданої середньої величини, але мені все одно цікаво, що робить операція максимізації ентропії Шенона математично такою, що має місце зазначений вище результат? Це ефективно мінімізувати максимальну щільність або середню концентрацію вимірювання ймовірності?
Аніка

Відповіді:


19

Це насправді не моє поле, тому деякі роздуми:

Почну з концепції сюрпризу . Що означає дивуватися? Зазвичай це означає, що сталося щось, чого не очікувалося. Отже, здивуйте це ймовірнісною концепцією і її можна пояснити як таку (про це писав IJ Good). Дивіться також Вікіпедію та Байєзський сюрприз .

Візьміть конкретний випадок ситуації "так / ні", щось може статися чи ні. Це відбувається з ймовірністю . Скажіть, якщо р = 0,9 і це трапляється, ви насправді не здивовані. Якщо і це трапляється, ви дещо здивовані. І якщо і це трапляється, ви справді здивовані. Отже, природна міра "значення несподіваності у спостережуваному результаті" є деякою (анти) монотонною функцією ймовірності того, що сталося. Здається природним (і працює добре ...) взяти логарифм вірогідності того, що сталося, і тоді ми кидаємо знак мінус, щоб отримати додатне число. Також, беручи логарифм, ми концентруємось на порядку несподіванки, і, на практиці, ймовірності часто відомі лише на замовлення, більш-менш .pp=0,05p=0,0000001

Отже, ми визначаємо де - спостережуваний результат, а - його ймовірність.

Сюрприз(А)=-журналp(А)
Аp(А)

Тепер ми можемо запитати, який очікуваний сюрприз . Нехай Х - випадкова величина Бернуллі з ймовірністю p . Він має два можливі результати, 0 і 1. Відповідні значення сюрпризу -

Сюрприз(0)=-журнал(1-p)Сюрприз(1)=-журналp
тому сюрприз при спостереженніХ- сама випадкова величина з очікуванням
p-журналp+(1-p)-журнал(1-p)
і це --- сюрприз! --- ентропіяХ! Тож ентропіїочікується сюрприз!

Тепер це питання стосується максимальної ентропії . Чому хтось хоче використовувати максимальний розподіл ентропії? Ну, це повинно бути, бо вони хочуть бути максимально здивовані! Чому хтось цього хоче?

Спосіб подивитися на це полягає в наступному: Ви хочете дізнатися про щось, і для цього ви налаштували певний досвід навчання (або експерименти ...). Якщо ви вже знали все про цю тему, ви завжди можете досконало передбачити, тому ніколи не дивуйтеся. Тоді ти ніколи не отримуєш нового досвіду, тому нічого нового не дізнаєшся (але ти вже все знаєш --- навчитися нічого, тому це нормально). У більш типовій ситуації, коли ви розгублені, не в змозі передбачити ідеально, є можливість навчання! Це призводить до думки, що ми можемо виміряти "кількість можливого навчання" за очікуваним сюрпризом , тобто ентропією. Отже, максимізація ентропії - це не що інше, як максимізація можливостей для навчання. Це звучить як корисна концепція, яка може бути корисною при розробці експериментів і подібних речей.

Поетичний приклад - добре відомий

Wenn einer eine reise macht, dann kann er was erzählen ...

Один практичний приклад: Ви хочете створити систему для тестів в Інтернеті (онлайн означає, що не всі отримують однакові запитання; питання вибираються динамічно залежно від попередніх відповідей, настільки оптимізованих, певним чином, для кожної людини).

Якщо ви ставите занадто складні запитання, щоб вони ніколи не були освоєні, ви нічого не дізнаєтесь. Це означає, що ви повинні знизити рівень складності. Який оптимальний рівень складності, тобто рівень складності, який максимально збільшує швидкість навчання? Нехай вірогідність правильної відповіді буде p . Ми хочемо, щоб значення p максимальним для ентропії Бернуллі. Але це p=0,5 . Отже, ви прагнете задати питання, коли ймовірність отримати правильну відповідь (від цієї особи) 0,5.

Тоді в разі безперервної випадкової величини Х . Як можна здивуватися, спостерігаючи за Х ? Імовірність будь-якого конкретного результату {Х=х} дорівнює нулю, визначення -журналp є марним. Але ми будемо здивовані, якщо ймовірність спостерігати щось на зразок х невелика, тобто якщо значення функції густини f(х) невелике (якщо припустимо, що f є безперервним). Це призводить до визначення

Сюрприз(х)=-журналf(х)
З цим визначенням очікуваний сюрприз від спостереження Х дорівнює
Е{-журналf(Х)}=-f(х)журналf(х)гх
т, очікуваний сюрприз від спостереженняХ є диференціальної ентропієюХ . Це також може розглядатися як очікувана вірогідність логотипу.

Х


5
Це одне з найкращих та інтуїтивних пояснень максимальної ентропії, яку я бачив!
Владислав Довгалець

3

Хоча я не фахівець з теорії інформації та максимальної ентропії, я деякий час зацікавився цим.

Ентропія - це міра невизначеності розподілу ймовірностей, яка була отримана за набором критеріїв. Він та пов'язані з ним заходи характеризують розподіл ймовірностей. І це унікальна міра, яка відповідає цим критеріям. Це схоже на випадок самої ймовірності, який, як це прекрасно пояснено в Jaynes (2003), є унікальною мірою, яка задовольняє деяким дуже бажаним критеріям для будь-якої міри невизначеності логічних тверджень.

Будь-який інший показник невизначеності розподілу ймовірностей, який був іншим, ніж ентропія, повинен був би порушити один або більше критеріїв, що використовуються для визначення ентропії (інакше це обов'язково буде ентропія). Отже, якби у вас було якесь загальне твердження з точки зору ймовірності, яке якимось чином дало ті самі результати, що і максимальна ентропія ... то це була б максимальна ентропія!

Теорема про концентрацію Джейнеса найближчим часом, яку я можу знайти до твердження про ймовірність щодо максимальних ентропійних розподілів . Це можна чітко пояснити в Капурі та Кесавані (1992). Ось нескінченний перегляд:

pнpii=1,...,нмм+1

Sм+1Sмакс

N

2N(Sмакс-S)χн-м-12.

(Sмакс-χн-м-12(0,95)2N,Sмакс).
Sмакс-χн-м-12(0,95)2N

ET Jaynes (2003) Теорія ймовірностей: Логіка науки. Cambridge University Press.

ЮН Капур і .К. Принципи оптимізації ентропії Kesavan (1992) із застосуванням. Academic Press, Inc.


3

σ

"Отже, в цій інтерпретації основна теорема про центральний межа виражає той факт, що ентропія суми незалежних випадкових величин на середній символ із середнім нулем та загальною дисперсією має тенденцію до максимуму. Це здається виразним розумним; другий закон термодинаміки, який Еддінгтон розглядав як "вищу позицію серед законів природи".

Я ще не вивчив наслідків цього, і не впевнений, що повністю розумію їх.

[редагувати: виправлено помилку]

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.