Я думаю, ваше запитання стосується більше «значення» цього логарифму і чому кожен компонент сприяє загальному значенню формули, а не просто формалізму, що демонструє узгодженість визначення певним вимогам.
Ідея ентропії Шеннона полягає в оцінці інформації повідомлення, дивлячись на його ЧАСТОТНІСТЬ (тобто ) та на його загальну (тобто ):p(x)- l o g ( p ( x ) )−log(p(x))
- p(x) : чим частішим буде повідомлення, тим менше інформації буде переносити (тобто простіше передбачити).
- −log(p(x)) : Чим більше "загального" повідомлення, тим більше інформації буде нести.
Перший член - про частоту, - про його загальність.p(x)−log(p(x))
Відтепер я обговорюватиму, як ЗАГАЛЬНІСТЬ впливає на остаточну формулу ентропії.
Отже, ми можемо визначити, наскільки загальним (наприклад, дощ / не дощ) або специфічним (наприклад, ligth / avg / heavy / veryHeavy rain) є повідомлення на основі кількості бітів, необхідних для його кодування:
log2(x)=number_of_bits_to_encode_the_messages
А тепер посидьте, розслабтесь і подивіться, як гарно Ентропія Шеннона виконує трюк: вона заснована на (розумному) припущенні, що повідомлення, які є ЗАГАЛЬНІ, є, отже, більш ЧАСТИМИ.
Наприклад, скажу, що йде дощ, якщо це середній, сильний або дуже сильний дощ. Таким чином, він запропонував кодувати ЗАГАЛЬНІСТЬ повідомлень, виходячи з того, наскільки БЕЗПЕЧНІ вони ...
log2N=−log21/N=−log2P
з - частота повідомлення .Nx
Рівняння можна інтерпретувати як: рідкісні повідомлення матимуть довше кодування, оскільки вони менш загальні, тому для кодування їм потрібно більше бітів і менш інформативні. Отже, наявність більш конкретних і рідкісних повідомлень сприятиме більшої кількості ентропії, ніж багато загальних і частих повідомлень.
У заключній постановці ми хочемо розглянути два аспекти. Перший, , полягає в тому, що часті повідомлення легше передбачити, і з цього погляду менш інформативні (тобто довше кодування означає більш високу ентропію). Другий, , полягає в тому, що часті повідомлення також є загальними і з цього погляду більш інформативними (тобто коротше кодування означає нижчу ентропію).p(x)−log(p(x))
Найвища ентропія - це коли у нас є система з багатьма рідкісними та конкретними повідомленнями. Найнижча ентропія з частими та загальними повідомленнями. Між ними у нас є спектр систем, що відповідають рівню ентропії, які можуть мати як рідкісні, так і загальні повідомлення або часті, але конкретні повідомлення.