Ентропія, яку ви обчислили, насправді не для конкретного рядка, а, скоріше, для випадкового джерела символів, що генерує A з вірогідністю 810 , аBі Cз вірогідністю 110 кожен, без кореляції між послідовними символами. Обчислена ентропія для цього розподілу0.922означає, що ви не можете представляти рядки, згенеровані з цього розподілу, використовуючи в середньому менше0.922біт на символ.
Можливо, буде досить важко розробити код, який дозволить досягти цієї швидкості. * Наприклад, кодування Хаффмана виділило б коди 0 , 10 і 11 відповідно A , B і C , в середньому 1.2 біта на символ. Це досить далеко від ентропії, хоча все-таки набагато краще, ніж наївне кодування двох біт на символ. Будь-яка спроба краще кодування , ймовірно , буде використовувати той факт , що навіть пробіг десять разів поспіль s більш імовірно (ймовірність 0,107 ) , ніж один B .A0.107B
* Виявляється, не так важко наблизитися, як хочеш - дивись інші відповіді!