Різниця між "інформацією" та "корисною інформацією" в алгоритмічній теорії інформації


16

За даними Вікіпедії :

Неофіційно, з точки зору алгоритмічної теорії інформації, зміст інформації рядка еквівалентно довжині найкоротшого можливого автономного подання цієї рядка.

Яке аналогічне неформальне суворе визначення "корисної інформації"? Чому «корисна інформація» не сприймається як більш природна чи більш фундаментальна концепція; Наївно це здається, що суто випадковий рядок за визначенням повинен містити нульову інформацію, тому я намагаюся обернути голову тим фактом, що за стандартним визначенням воно має максимальну інформацію.


2
Ласкаво просимо! Зауважте, що ви можете змінити своє ім’я користувача на те, що люди швидше розпізнають, коли ви станете постійним відвідувачем.
Рафаель

Відповіді:


12

Центральна концепція тут - складність Колмогорова , а точніше стисливість . Щоб отримати інтуїтивне відчуття стисливості, розгляньте два рядки і , де . Дозволяти B BB = { 0 , 1 }АББББ={0,1}

1010 1010 1010А=1010 1010 1010 1010 , і

0110 0111 1001Б=1011 рік 0110 0111 1001 .

Зверніть увагу, що . Як ми могли кількісно оцінити, скільки інформації має або ? Якщо ми думаємо про класичну теорію інформації, загалом передача рядка довжиною займає в середньому біт. Однак ми не можемо сказати, скільки бітів нам потрібно, щоб передати певний рядок довжиною .A B n n n|А|=|Б|=16АБннн

Чому вміст інформації випадкової рядки не дорівнює нулю?

При ближчому огляді ми можемо побачити, що насправді . Тим НЕ менше, це набагато важче сказати , якщо має якісь - або очевидні закономірності в його структурі, по крайней мере, здається , і відчуває себе більш випадковим , ніж . Оскільки ми можемо знайти шаблон в , ми можемо легко стиснути і зобразити його менш ніж бітами. Так само, оскільки виявити будь-які закономірності в непросто , ми не можемо її стиснути настільки сильно. Тому ми можемо сказати , що має більше інформації , ніж . Причому випадковий рядок довжиною B A A A 16 B B A n nA=108BAAA16BBAnмає максимальну інформацію, оскільки немає способу її стиснути, а значить, представити її менше ніж біт.n

Що тоді корисна інформація?

Для корисної інформації , так, є визначення з допомогою машини Тьюринга . Корисна інформація в єx BTxB

minT { l(T)+C(x|T):T{T0,T1,...}},

де позначає довжину самообмежуються кодування для машини Тьюринга . Позначення зазвичай такі, що позначає складність Колмогорова і умовну складність Колмогорова задану .T C ( x ) x C ( x | y ) x yl(T)TC(x)xC(x|y)xy

Тут втілює кількість корисної інформації, що міститься у . Що ми можемо запитати, - який такий вибрати серед тих, хто задовольняє вимозі. Проблема полягає в тому, щоб відокремити коротку програму на частини - й представляє відповідний . Це насправді сама ідея, яка породила мінімальну довжину опису (MDL) .x T x x = p q p TTxTxx=pqpТ


4

Це може бути тому, що "корисне" важко визначити. Скажімо, у нас є високоструктуроване, насичене інформацією повідомлення яке може бути стиснене максимум фактором до повідомлення . Інтуїтивно, і містять однакову кількість корисної інформації; Дійсно, вони містять однаковий обсяг інформації відповідно до звичайного визначення. Тепер уявіть префікс з такої ж довжини , як ; вона повинна містити не більш корисну інформацію, ніж , отже, не більше . Однак більш "випадковий", ніж , оскількиxαyxyzxyxyyzzможна стискати, а не можна. Отже, якщо ми спробуємо пов’язати «корисну» інформацію зі стисливістю, ми можемо зіткнутися з наступним парадоксом: префікс повідомлення міг би мати більшу «корисну» інформацію, ніж все повідомлення, здавалося б, суперечливість.y


Визначити це може бути важко, а може бути, що він не може тривіально розраховувати на стисливість, як це робить "інформація", але це здається більш важливим визначенням! Як відомо, «інформація» здається псевдонімом «складності Колмогорова», а не серйозною спробою визначення інформації у звичному розумінні, що в інших контекстах, за визначенням, має бути корисним! Це активна область досліджень? Чи є запропоновані визначення?
користувач1247

@ user1247 Чому ви вважаєте, що складність Колмогорова не є серйозною?
Juho

@mrm Я вважаю це дуже серйозною і цікавою концепцією, але мені незручно називати це поняття "інформацією". Що означає абсолютно випадковий рядок, що містить інформацію? "Корисна інформація" видається більш застосовною та цікавою, якщо мова йде про обговорення інформації (де "корисна" неявна) у реальному світі, наприклад, у філософських чи квантових механічних дискусіях щодо інформації, що передається чи отримується, наприклад.
користувач1247

1
@ user1247 Можливо цікавим способом інтерпретації моєї відповіді є такий: інформація корисна або марна на основі того, як вона інтерпретується. Для фіксованого тлумачення одне повідомлення може мати більш-менш корисну інформацію, ніж інше. На мою думку, будь-яка теорія корисної інформації повинна враховувати подібні інтерпретації (звичайні заходи, такі як ентропія, роблять це теж, хоча і неявно).
Patrick87

@ Patrick87 Я абсолютно згоден, що будь-яка добра теорія "корисної інформації" повинна враховувати механізм дешифрування. Ось що робить це цікавою проблемою! Якщо ви надішлите мені трохи рядка, і в принципі я не можу його розшифрувати, він повинен бути визначений таким, що не містить корисної інформації.
користувач1247

4

З менш формальної точки зору, я думаю, що це може допомогти, якщо ви відсторонитеся від слова "випадковий", оскільки ви правильні, що набір справді випадкових бітів не зберігає жодної інформації в практичному розумінні. (Якщо я зашифрую набір імен і надішлю вам зашифровані значення, вони можуть мати дуже високу складність Колмогорова, але це не допоможе вам з'ясувати імена).

Але подумайте про це таким чином. Якщо ви бачите веб-сайт іноземною мовою (скажімо шведською, якщо припустити, що ви не розмовляєте нею), він виглядатиме більш-менш випадково. Буде якийсь порядок до слів, але не дуже. Однак якщо ви подивитеся на веб-сторінку з текстом, який виглядає приблизно так: 123456123456123456123456 ... і так далі, ви зможете зрозуміти її швидше. Якщо ви не розмовляєте шведською мовою, ви, ймовірно, зможете отримати набагато більше, навіть якщо шведська веб-сторінка сказала еквівалент "перші шість номерів, які повторюються послідовно". Веб-сайти містять ту саму інформацію, але одна здається вам випадковою. А що стосується простору, той, який ви розумієте, є менш ефективним, ніж шведська веб-сторінка, навіть якщо вона зберігає ту саму інформацію. Ви можете не вважати цю інформацію "корисною", оскільки вона "

Поняття "інформація" має бути універсальним, тому те, що виглядає як випадкові - і тому марні - біти для вас, може зберігати велику кількість інформації комусь іншому. Міра інформації покликана бути внутрішньою властивістю рядка і не може залежати від того, що для вас робить і що не має сенсу, і що ви можете, а що не можете інтерпретувати.

Ще одним (більш технічним) моментом, який може допомогти, є те, що я тут трохи недоброзичливий. Як зазначає Джухо, інформація євизначено щодо того, хто його інтерпретує. Ви можете знайти шведську веб-сторінку абсолютно марною як засіб для отримання інформації, але хтось, хто розмовляє шведською мовою, може знайти її великою кількістю інформації. Це визначення відображає це. Однак з математики ми можемо дізнатися, що різниця між найкоротшою (найінформативнішою для космічної) веб-сторінкою для передачі цього веб-сайту вам та найкоротшою веб-сторінкою, яка може передавати її тому, хто говорить шведською мовою, може відрізнятися лише постійною добавкою. Чому? Тому що для вас, як для спікера, що не є шведською, найкоротший спосіб зберігання сторінки, яку ви можете зрозуміти, - це "перші шість цілих чисел, які повторюються послідовно". Це може бути трохи довше, ніж шведське.

(Найбільш ефективне представлення інформації англійською мовою)(Найефективніше представництво шведською мовою)+(Довжина шведсько-англійського словника)
. Це стає трохи поза темою від вашого початкового запитання, але я намагаюся зробити те, що це не має великого значення, хто читає інформацію. Шведська веб-сторінка, яка виглядає випадковим чином, не була для вас «корисною», але «корисна» для когось іншого, і ви лише постійний об’єм інформації, не в змозі скористатися нею самостійно.
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.