Що таке емпірична ентропія?


19

У визначенні спільно типових множин (у "Елементах теорії інформації", гл. 7.6, стор. 195) ми використовуємо

-1нжурналp(хн)
в якості емпіричної ентропії як -sequence з . Я ніколи раніше не стикався з цією термінологією. Це не визначено явно ніде відповідно до покажчика книги.нp(хн)=i=1нp(хi)

Моє запитання в основному таке: Чому емпірична ентропія не де - емпіричний розподіл?-хp^(х)журнал(p^(х))p^(х)

Які найцікавіші відмінності та схожість між цими двома формулами? (за властивостями вони діляться / не діляться).


Чи не два алгебраїчно вираження?
whuber

1
@whuber: Ні, я вважаю, це різні кількості, з різною метою. Зауважимо, що перший використовує істинну міру прийняту відому апріорі. Другий - ні. p
кардинал

3
Перша стосується накопичення ентропії з часом і порівняння її з справжньою ентропією системи. SLLN та CLT багато розповідають про те, як він поводиться. Другий стосується оцінки ентропії за даними, а деякі її властивості також можна отримати за допомогою цих же двох згаданих інструментів. Але, хоча перше є неупередженим, друге не підпадає під будь-яку . Я можу заповнити деякі деталі, якщо це буде корисно. p
кардинал

1
@cardinal: Якщо ви надасте вищезазначений коментар як відповідь (можливо, також поясніть, що таке SLLN та CLT? - я не знаю таких), я б із задоволенням подав заяву ...
blubb

Гаразд, я спробую опублікувати більше пізніше. Тим часом, SLLN = "Сильний закон великих чисел" і CLT = "Центральна гранична теорема". Це досить стандартні абревіатури, з якими ви, швидше за все, знову зустрінетесь. Ура. :)
кардинал

Відповіді:


16

Якщо дані , тобто, п -послідовність з зразка простору X , емпіричні ймовірності точкових р ( х ) = 1хн=х1хннХ дляхХ. Тутδx(xi)- один, якщоxi=x,а в іншому випадку нуль. Те є, р (х)є відносна частотахв спостережуваної послідовності. Ентропіїрозподілу ймовірностей даного емпіричними точкових ймовірності Н( р )=-Σ

p^(х)=1н|{iхi=х}|=1нi=1нδх(хi)
хХδх(хi)хi=хp^(х)х Остання рівність слід перестановкою дві суми і з огляду нащоΣх Х δх(хя)лог р (х)=лог р (хя). З цього ми бачимощо Н( р )=-1
Н(p^)=-хХp^(х)журналp^(х)=-хХ1нi=1нδх(хi)журналp^(х)=-1нi=1нжурналp^(хi).
хХδх(хi)журналp^(х)=журналp^(хi).
з р (хп)=П п I = 1 р (хя)івикористанням термінології від питання це емпірична ентропіяемпіричного розподілу ймовірностей. Як зазначив @cardinal у коментарі,-1
Н(p^)=-1нжурналp^(хн)
p^(хн)=i=1нp^(хi)- емпірична ентропія заданого розподілу ймовірностей з точковими ймовірностямиp.-1нжурналp(хн)p

3
(+1) Це чудово ілюструє те, що Cover і Thomas називають "дивним самореференційним характером" ентропії. Однак я не впевнений, що відповідь насправді стосується (безпосередньо) очевидних проблем ОП. :)
кардинал

@cardinal, я знаю, і відповідь був лише довгим коментарем, щоб зробити цей конкретний пункт. Я не хотів повторювати ваші пункти.
NRH

1
Ви не повинні почувати себе погано чи не соромтесь розміщувати власну відповідь, включаючи розширення моїх коментарів чи коментарів інших. Я особливо повільно і погано розміщую відповіді, і ніколи не ображатимусь, якщо ви чи інші люди публікують відповіді, що містять аспекти речей, про які я, можливо, раніше коротко прокоментував. Насправді навпаки. Ура.
кардинал

7

Ентропія визначається для розподілу ймовірностей. Коли у вас немає одного, а лише даних, і підключаєте наївний оцінювач розподілу ймовірностей, ви отримуєте емпіричну ентропію. Це найпростіше для дискретних (мультиноміальних) розподілів, як це показано в іншій відповіді, але це також можна зробити для інших розподілів бінінгу тощо.

Проблема емпіричної ентропії полягає в тому, що вона є необ'єктивною для малих проб. Наївна оцінка розподілу ймовірностей показує додаткові зміни через шум вибірки. Звичайно, можна використовувати кращий оцінювач, наприклад, підходящий до мультиноміальних параметрів, але отримати його по-справжньому неупереджено непросто.

Сказане також стосується умовних розподілів. Крім того, все стосується бінінгу (або кернелізації), тому ви насправді маєте своєрідну диференціальну ентропію.


3
Ми повинні бути обережними з тим, що ми тут маємо на увазі як емпіричну ентропію . Зауважте, що оцінювач плагінів завжди є упередженим низьким для всіх розмірів вибірки, хоча зміщення зменшиться зі збільшенням розміру вибірки. Отримати непідвладні оцінювачі ентропії не тільки важко , а й загалом неможливо . Протягом останніх кількох років в цій галузі проводилися досить інтенсивні дослідження, особливо в літературі з нейронауки. Насправді існує багато негативних результатів.
кардинал
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.