Ух, чудове запитання! Дозвольте спробувати пояснити резолюцію. Це зробить три чіткі кроки.
Перше, що слід зазначити, це те, що ентропія орієнтована більше на середню кількість бітів, необхідних за нічию, а не на максимальну кількість необхідних біт.
З вашої вибірки процедури, максимальне число випадкових бітів , необхідних в розіграші N бітів, але середнє число бітів , необхідних на 2 біта (середнє геометричне розподіл з p=1/2 ) - це тому , що є 1/2 ймовірність того, що вам потрібно тільки 1 біт (якщо перший біт виявляється 1), а 1/4 ймовірність того, що вам потрібно тільки 2 біта (якщо перші два біта виявляються 01), A 1/8 ймовірність того, що вам знадобляться лише 3 біти (якщо перші три біти виявляються 001) тощо.
Друге, що слід зазначити, це те, що ентропія насправді не фіксує середню кількість бітів, необхідних для одного розіграшу. Натомість ентропія фіксує амортизовану кількість бітів, необхідних для вибірки m iid черпає з цього розподілу. Припустимо, нам потрібні f(m) біти для вибірки m малюнків; то ентропія - межа f(m)/m як m→∞ .
Третє, що слід зауважити, це те, що при такому розподілі ви можете вибирати m iid малюнки з меншою кількістю бітів, ніж потрібно для багаторазової вибірки одного малюнка. Припустимо, ви наївно вирішили намалювати один зразок (займає 2 випадкових біта в середньому), потім намалюйте інший зразок (використовуючи ще 2 випадкових біта в середньому) і так далі, доки ви не повторите це m разів. Для цього потрібно в середньому близько 2m випадкових біт.
Але виявляється, існує спосіб вибірки з m малюнків, використовуючи менше 2m біт. У це важко повірити, але це правда!
Дозвольте дати вам інтуїцію. Припустимо, ви записали результат вибірки m малюнків, де m дійсно великий. Тоді результат можна вказати як m бітну рядок. Цей m бітовий рядок буде здебільшого 0, з ним декілька 1: зокрема, він в середньому матиме приблизно m/2N 1 (може бути більше або менше, ніж це, але якщо m досить великий, зазвичай це число буде близько до цього). Довжина зазорів між 1-х випадкова, але зазвичай буде десь розпливчасто поблизу 2N(легко може бути вдвічі меншим або вдвічі більшим, але навіть такого порядку). Звичайно, замість того, щоб записати весь m бітовий рядок, ми могли б записати його більш лаконічно, записавши список довжин прогалин - який містить всю ту саму інформацію, у більш стисненому форматі. На скільки ще лаконічніше? Ну, нам зазвичай потрібно близько N біт, щоб представити довжину кожного проміжку; і буде близько m/2N зазорів; тож нам знадобиться загалом близько mN/2N біт (може бути трохи більше, може бути трохи менше, але якщо m досить великий, зазвичай це буде близько до цього). Це набагато коротше, ніж аm -бітна рядок
І якщо є спосіб записати рядок це лаконічно, можливо, це буде не надто дивно, якщо це означає, що існує спосіб генерувати рядок з кількістю випадкових бітів, порівнянних з довжиною рядка. Зокрема, ви випадково генеруєте довжину кожного проміжку; це вибірки з геометричного розподілу з p=1/2N , і що може бути зроблено з приблизно ∼N випадкових бітів в середньому (НЕ 2N ). Вам знадобиться близько m/2N iid черпає з цього геометричного розподілу, тому вам знадобиться загалом приблизно ∼Nm/2Nвипадкові біти. (Це може бути невеликий постійний коефіцієнт, більший, але не надто великий.) І зауважте, що це набагато менше, ніж 2m біт.
Отже, ми можемо відібрати вибірку m iid з вашого розповсюдження, використовуючи лише f(m)∼Nm/2N випадкових бітів (приблизно). Нагадаємо, що ентропія є limm→∞f(m)/m . Таким чином , це означає , що ви повинні очікувати , що ентропія буде (приблизно) N/2N . Це трохи виключається, оскільки вищевказаний розрахунок був ескізним та грубим - але, сподіваємось, він дає вам певну інтуїцію, чому ентропія є такою, яка вона є, і чому все послідовно та розумно.