Інформаційно-теоретична центральна межа теореми


11

Найпростішою формою інформаційно-теоретичного CLT є наступна:

Нехай Х1,Х2, є iid із середнім значенням 0 та дисперсією . Нехай - щільність нормованої суми а - стандартна щільність Гаусса. Тоді інформаційно-теоретичний CLT стверджує, що якщо кінцевий для деякого n , то D (f_n \ | \ phi) \ до 0 як n \ до \ infty .f n n i = 1 X i1fн ϕD(fnϕ)=fnlog(fn/ϕ)dxnD(fnϕ)0ni=1нХiнϕD(fнϕ)=fнжурнал(fн/ϕ)гхнD(fнϕ)0н

Безумовно, ця конвергенція, в певному сенсі, є "сильнішою", ніж добре усталені конвергенції в літературі, конвергенція розподілу та конвергенція в L1 -метричній, завдяки нерівності (|fн-ϕ|)22fнжурнал(fн/ϕ) . Тобто конвергенція у KL-дивергенції передбачає конвергенцію розподілу та конвергенцію на відстані L1 .

Я хотів би знати дві речі.

  1. Що таке велике в результаті D(fнϕ)0 ?

  2. Це тільки через , зазначеної в третьому абзаці ми говоримо , конвергенція в KL-дивергенції ( тобто , D(fнϕ)0 ) сильніше?

NB: Я задав це питання десь тому в math.stackexchange, де я не отримав жодної відповіді.


Будь ласка, надайте посилання на дублікат math.SE питання.
кардинал

6
Здається, ваше твердження неявно припускає наявність щільності (стосовно міри Лебега). Можливо, вас зацікавить цей короткий і чудовий документ: А. Р. Баррон (1986), " Ентропія" і теорема про центральну межу . Імовірно. , т. 14, вип. 1, 336-342. ( відкритий доступ ).
кардинал

2
Я вже дивився на цей папір. Він подав мотивацію інформаційно-теоретичної точки зору у другому абзаці сторінки 1. Мені було не все так зрозуміло на той час. Тепер це виглядає нормально. І все-таки, якщо можна чітко пояснити наступне і опублікувати як відповідь, було б чудово. "З теорії інформації відносна ентропія є найменшою верхньою межею надмірності (перевищення середньої довжини опису) коду Шеннона на основі нормального розподілу при описі квантування зразків з ." Я видалив це питання в math.SE, оскільки воно там нікого не приваблювалоDнfн
Ашок

@cardinal: tks для приємного паперу.
Дзен

Відповіді:


5

Одне, що є великим у цій теоремі, - це те, що вона пропонує граничні теореми в деяких параметрах, де звичайна центральна гранична теорема не застосовується. Наприклад, у ситуаціях, коли максимальний ентропійний розподіл - це деякий ненормальний розподіл, наприклад, для розподілів по колу, він пропонує конвергенцію до рівномірного розподілу.


Я не розумію. Як я вже згадував, конвергенція в дивергенції KL передбачає конвергенцію в розподілі, знаєте? Отже, де не застосовується теоретичний CLT інформації, також застосовується звичайний CLT. Більше того, інформаційно-теоретичний CLT також передбачає кінцеву дисперсію. Або я щось пропускаю?
Ашок

2
Я мав на увазі те, що метод ентропії підказує, якою може бути межа в ситуаціях, коли межа не є нормальним розподілом. Ліміт - це розподіл, що забезпечує максимальну ентропію.
kjetil b halvorsen

3

Оглянувшись, я не зміг знайти жодного прикладу конвергенції розподілу без конвергенції у відносній ентропії, тому важко виміряти «велич» цього результату.

Як мені здається, цей результат просто описує відносну ентропію продуктів згортки. Його часто розглядають як альтернативну інтерпретацію та доказову основу теореми про центральну межу, і я не впевнений, що це має прямий вплив на теорію ймовірностей (хоча це і в теорії інформації).

З інформаційної теорії та теореми центральної межі (стор. 19).

Другий закон термодинаміки говорить, що термодинамічна ентропія завжди зростає з часом, що передбачає певну конвергенцію до стану Гіббса. Збереження енергії означає, що залишається постійним протягом цієї еволюції часу, тому ми можемо з самого початку сказати, який стан Гіббса буде межею. Ми будемо розглядати центральну граничну теорему аналогічно, показавши, що інформаційно-теоретична ентропія зростає до свого максимуму, коли ми приймаємо згортки, маючи на увазі зближення з Гауссом. Нормалізація належним чином означає, що дисперсія залишається постійною під час згортків, тому ми можемо з самого початку сказати, якою буде гауссова межа.Е


2
Прикладів конвергенції розподілу без конвергенції у відносній ентропії є безліч прикладів - у будь-який час мають дискретний розподіл і застосовується CLT. Хi
Марк Меккес

1

n D(fнϕ)0 запевняє, що немає "відстані" між розподілом суми випадкових змінних та гауссовою щільністю як лише через визначення дивергенції KL, тому це є доказом себе. Можливо, я неправильно зрозумів ваше запитання.н

Щодо другого пункту, який ви призначили, він відповів у вашому абзаці.


1
Φ
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.