Це насправді не моє поле, тому деякі роздуми:
Почну з концепції сюрпризу . Що означає дивуватися? Зазвичай це означає, що сталося щось, чого не очікувалося. Отже, здивуйте це ймовірнісною концепцією і її можна пояснити як таку (про це писав IJ Good). Дивіться також Вікіпедію та Байєзський сюрприз .
Візьміть конкретний випадок ситуації "так / ні", щось може статися чи ні. Це відбувається з ймовірністю . Скажіть, якщо р = 0,9 і це трапляється, ви насправді не здивовані. Якщо і це трапляється, ви дещо здивовані. І якщо і це трапляється, ви справді здивовані. Отже, природна міра "значення несподіваності у спостережуваному результаті" є деякою (анти) монотонною функцією ймовірності того, що сталося. Здається природним (і працює добре ...) взяти логарифм вірогідності того, що сталося, і тоді ми кидаємо знак мінус, щоб отримати додатне число. Також, беручи логарифм, ми концентруємось на порядку несподіванки, і, на практиці, ймовірності часто відомі лише на замовлення, більш-менш .pр = 0,05р = 0,0000001
Отже, ми визначаємо
де - спостережуваний результат, а - його ймовірність. Сюрприз ( A ) = - журналp ( A )
Аp ( A )
Тепер ми можемо запитати, який очікуваний сюрприз . Нехай Х - випадкова величина Бернуллі з ймовірністю p . Він має два можливі результати, 0 і 1. Відповідні значення сюрпризу -
Сюрприз ( 0 )Сюрприз ( 1 )= - журнал( 1 - р )= - журналp
тому сюрприз при спостереженніХ- сама випадкова величина з очікуванням
p ⋅ - журналp + ( 1 - p ) ⋅ - лог( 1 - р )
і це --- сюрприз! --- ентропіяХ! Тож ентропіїочікується сюрприз!
Тепер це питання стосується максимальної ентропії . Чому хтось хоче використовувати максимальний розподіл ентропії? Ну, це повинно бути, бо вони хочуть бути максимально здивовані! Чому хтось цього хоче?
Спосіб подивитися на це полягає в наступному: Ви хочете дізнатися про щось, і для цього ви налаштували певний досвід навчання (або експерименти ...). Якщо ви вже знали все про цю тему, ви завжди можете досконало передбачити, тому ніколи не дивуйтеся. Тоді ти ніколи не отримуєш нового досвіду, тому нічого нового не дізнаєшся (але ти вже все знаєш --- навчитися нічого, тому це нормально). У більш типовій ситуації, коли ви розгублені, не в змозі передбачити ідеально, є можливість навчання! Це призводить до думки, що ми можемо виміряти "кількість можливого навчання" за очікуваним сюрпризом , тобто ентропією. Отже, максимізація ентропії - це не що інше, як максимізація можливостей для навчання. Це звучить як корисна концепція, яка може бути корисною при розробці експериментів і подібних речей.
Поетичний приклад - добре відомий
Wenn einer eine reise macht, dann kann er was erzählen ...
Один практичний приклад: Ви хочете створити систему для тестів в Інтернеті (онлайн означає, що не всі отримують однакові запитання; питання вибираються динамічно залежно від попередніх відповідей, настільки оптимізованих, певним чином, для кожної людини).
Якщо ви ставите занадто складні запитання, щоб вони ніколи не були освоєні, ви нічого не дізнаєтесь. Це означає, що ви повинні знизити рівень складності. Який оптимальний рівень складності, тобто рівень складності, який максимально збільшує швидкість навчання? Нехай вірогідність правильної відповіді буде p . Ми хочемо, щоб значення p максимальним для ентропії Бернуллі. Але це p = 0,5 . Отже, ви прагнете задати питання, коли ймовірність отримати правильну відповідь (від цієї особи) 0,5.
Тоді в разі безперервної випадкової величини Х . Як можна здивуватися, спостерігаючи за Х ? Імовірність будь-якого конкретного результату { X= x } дорівнює нулю, визначення - журналp є марним. Але ми будемо здивовані, якщо ймовірність спостерігати щось на зразок х невелика, тобто якщо значення функції густини f( х ) невелике (якщо припустимо, що f є безперервним). Це призводить до визначення
Сюрприз ( x ) = - журналf( х )
З цим визначенням очікуваний сюрприз від спостереження Х дорівнює
Е{ - журналf( X) } = - ∫f( x ) журналf( х )гх
т, очікуваний сюрприз від спостереженняХ є диференціальної ентропієюХ . Це також може розглядатися як очікувана вірогідність логотипу.
Х