Дивергенція Кульбека-Лейблера БЕЗ теорії інформації


23

Після довгого траулінгу Cross Valified я все ще не відчуваю, що я ближче до розуміння розбіжності KL поза сферою теорії інформації. Це досить дивно, як комусь із математичним фоном, щоб було набагато простіше зрозуміти пояснення теорії інформації.

Щоб окреслити моє розуміння з передумови теорії інформації: Якщо у нас є випадкова величина з обмеженою кількістю результатів, існує оптимальне кодування, яке дозволяє нам спілкуватися про результат з кимось іншим із середнім найкоротшим повідомленням (я вважаю, що це найлегше малюнок у розряді). Очікувана довжина повідомлення, яке потрібно повідомити про результат, задається якщо використовується оптимальне кодування. Якщо ви використовували суб оптимальне кодування, то KL розбіжність підказує нам в середньому, наскільки довше буде наше повідомлення.

-αpαжурнал2(pα)

Мені подобається це пояснення, оскільки воно досить інтуїтивно стосується асиметрії дивергенції KL. Якщо у нас є дві різні системи, тобто дві завантажені монети, які завантажуються по-різному, вони матимуть різні оптимальні кодування. Я якось інстинктивно не відчуваю, що використання кодування другої системи для першого є «однаково поганим», ніж використання кодування першої системи для другого. Не переглядаючи процес думки про те, як я переконався в собі, зараз я досить щасливий, що дає вам цю "додаткову очікувану довжину повідомлення" при використанні кодування для .

αpα(журнал2qα-журнал2pα)
qp

Однак більшість визначень дивергенції KL, включаючи Вікіпедію, потім роблять твердження (зберігаючи це дискретно, щоб його можна порівняти з інтерпретацією теорії інформації, яка працює набагато краще в дискретних термінах, оскільки біти дискретні), що якщо у нас є дві дискретні ймовірності розподілу, то KL надає деяку метрику "наскільки вони різні". Я ще не бачив єдиного пояснення того, як ці дві концепції навіть пов'язані. Мені здається, я пам’ятаю, що у своїй книзі про умовивід Дейв Макей зазначає, що стиснення даних і умовиводів - це одне й те саме, і я підозрюю, що моє питання справді пов’язане з цим.

Незалежно від того, це чи ні, це таке питання, яке я маю на увазі, полягає в проблемах висновку. (Тримаючи речі дискретні), якщо у нас є два радіоактивні зразки, і ми знаємо, що один з них є певним матеріалом з відомою радіоактивністю (це сумнівна фізика, але давайте робити вигляд, що Всесвіт працює так), і таким чином ми знаємо "справжнє" розподіл радіоактивних клацань, які ми повинні виміряти, повинні бути отруйними з відомим , чи справедливо створити емпіричний розподіл для обох зразків і порівняти їх розбіжності KL з відомим розподілом і сказати, що чим нижчий, швидше за все, цей матеріал?λ

Якщо піти від сумнівної фізики, якщо я знаю, що два зразки витягнуті з одного і того ж розподілу, але я знаю, що вони не вибрані випадковим чином, порівнюючи їх розбіжності KL з відомими, глобальні розподіли дають мені відчуття "наскільки упереджені" зразки , відносно одного та іншого все одно?

І нарешті, якщо відповідь на попередні питання - так, то чому? Чи можливо зрозуміти ці речі лише зі статистичної точки зору, не здійснюючи жодних (можливо, дрібних) зв’язків з теорією інформації?


1
Дивіться мою відповідь тут: stats.stackexchange.com/questions/188903/… що не стосується теорії інформації
kjetil b halvorsen

1
Чи розбіжність KL не є суто інформаційно-теоретичною концепцією? Я знаю, що вона дає взаємну інформацію між байєсівською передньою і задньою, або щось подібне, і я пам’ятаю, як бачив це один раз у контексті перетворень / кон'югатів Фенхеля (велика теорія відхилень), але в будь-якому випадку я вважав, що це теоретична концепція інформації .
Chill2Macht

Відповіді:


23

Існує суто статистичний підхід до розбіжності Куллбека-Лейблера: взяти зразок iid з невідомого розподілу і розглянути потенціал, який відповідає сімейству розподілів, Відповідна ймовірність визначається як та її логарифм - Тому котрий є цікавою частиною розбіжності Куллбека-Лейблера між іp F = { p θХ1,,ХнpL ( θ | x 1 , , x n ) = n i = 1 p θ ( x i ) ( θ | x 1 , , x n ) = n i = 1 log p θ ( x i ) 1

Ж={pθ, θΘ}
L(θ|х1,,хн)=i=1нpθ(хi)
(θ|х1,,хн)=i=1нжурналpθ(хi)
p θ p H ( p θ | p ) def = log { p ( x ) / p θ ( x ) }
1н(θ|х1,,хн)Е[журналpθ(Х)]=журналpθ(х)p(х)гх
pθp log { p ( x ) }
Н(pθ|p)=дефжурнал{p(х)/pθ(х)}p(х)гх
інша частина там, щоб мінімум [in ] дорівнював нулю.θ H ( p θ | p )
журнал{p(х)}p(х)гх
θН(pθ|p)

Книга, яка пов'язує розбіжність, теорію інформації та статистичні умовиводи - це Оптимальна оцінка параметрів Ріссанена , яку я розглянув тут .


Будь-яка можливість бачити чисельний приклад цього?
Пол Ушак

Ну я маю на увазі побачити деякі фактичні цифри. Теорія мила, але світ працює на цифрах. Немає прикладів дивергенції KL, які використовують фактичні числа, тому я роблю висновок, що це теорія без можливого застосування. ОП обговорювала тривалість повідомлень у бітах та стиснення даних. Я мав на увазі будь-який приклад, який містить у собі кілька біт ...
Пол Ушак

2
@PaulUszak: якщо я скажу вам, що відстань Куллабека-Лейблера між розподілом N (0,1) та N (1,1) дорівнює 1/2, як це допомагає?
Сіань

2
@ Xi'an: Має бути якийсь зв’язок між цим числом 1/2 та потужністю відповідного тесту на коефіцієнт ймовірності?
kjetil b halvorsen

7
+1 Перегляньте нитку коментарів: розум хизується думкою, що будь-яка концепція, яку не можна звести до "кількості біт", марна.
whuber

8

Ось статистичне тлумачення розбіжності Куллбека-Лейблера, вільно взятого з IJ Good ( Вага доказів: коротке опитування , Bayesian Statistics 2, 1985).

Вага доказів.

х1,х2,,хнf0Н1Н2f0Н1={f1}Н2={f2}f0f1f2

х=(х1,,хн)Н1Н2

W(х)=журналf1(х)f2(х).
ПН0Н1W
журналП(Н0|х)П(Н1|х)=W(х)+журналП(Н0)П(Н1).
W(х1,,хн)=W(х1)++W(хн).
W(х)хН1Н2

хW(х)W(х)>2

Розбіжність Куллбека-Лейблера

f1f2хf1

КL(f1,f2)=Ехf1W(х)=f1журналf1f2.

хf1Н1={f1}Н2

Ехf1W(х)0.

1

Я ще не бачив єдиного пояснення того, як ці дві концепції навіть пов'язані.

Я мало знаю про теорію інформації, але я так думаю про це: коли я чую, як людина з теорії інформації каже «довжина повідомлення», мій мозок каже «здивування». Сюрприз 1.) випадковий і 2.) суб'єктивний.

Хq(Х)-журналq(Х)

qХppЕp[-журналp(Х)]qpЕp[-журналq(Х)]

Замість того, щоб думати про "наскільки вони різні", я думаю про "збільшення очікуваного сюрпризу від неправильного розподілу". Це все з властивостей логарифму.

Еp[журнал(p(Х)q(Х))]=Еp[-журналq(Х)]-Еp[-журналp(Х)]0.

Редагувати

-журнал(q(х))q

Хqх0-журнал(0)=10

-журнал

q(х)>1

ХqХ(х)Y=аХ+бqх((у-б)/а)|1/а|Х-журналqХ(Х)-журналqY(Y)

(Х-ЕХ)2

Редагувати 2: схоже, що я не єдиний, хто вважає це "сюрпризом". Від сюди :

уθ-2журнал{p(уθ)}


1
-журнал(q(х))q

1
ТТ(Х)=аХа0ТТ(х)хТ(х)х-журналqТ(Х)(Т(х))>-журналqХ(х)

(Х-Е[Х])2
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.