Після довгого траулінгу Cross Valified я все ще не відчуваю, що я ближче до розуміння розбіжності KL поза сферою теорії інформації. Це досить дивно, як комусь із математичним фоном, щоб було набагато простіше зрозуміти пояснення теорії інформації.
Щоб окреслити моє розуміння з передумови теорії інформації: Якщо у нас є випадкова величина з обмеженою кількістю результатів, існує оптимальне кодування, яке дозволяє нам спілкуватися про результат з кимось іншим із середнім найкоротшим повідомленням (я вважаю, що це найлегше малюнок у розряді). Очікувана довжина повідомлення, яке потрібно повідомити про результат, задається якщо використовується оптимальне кодування. Якщо ви використовували суб оптимальне кодування, то KL розбіжність підказує нам в середньому, наскільки довше буде наше повідомлення.
Мені подобається це пояснення, оскільки воно досить інтуїтивно стосується асиметрії дивергенції KL. Якщо у нас є дві різні системи, тобто дві завантажені монети, які завантажуються по-різному, вони матимуть різні оптимальні кодування. Я якось інстинктивно не відчуваю, що використання кодування другої системи для першого є «однаково поганим», ніж використання кодування першої системи для другого. Не переглядаючи процес думки про те, як я переконався в собі, зараз я досить щасливий, що дає вам цю "додаткову очікувану довжину повідомлення" при використанні кодування для .
Однак більшість визначень дивергенції KL, включаючи Вікіпедію, потім роблять твердження (зберігаючи це дискретно, щоб його можна порівняти з інтерпретацією теорії інформації, яка працює набагато краще в дискретних термінах, оскільки біти дискретні), що якщо у нас є дві дискретні ймовірності розподілу, то KL надає деяку метрику "наскільки вони різні". Я ще не бачив єдиного пояснення того, як ці дві концепції навіть пов'язані. Мені здається, я пам’ятаю, що у своїй книзі про умовивід Дейв Макей зазначає, що стиснення даних і умовиводів - це одне й те саме, і я підозрюю, що моє питання справді пов’язане з цим.
Незалежно від того, це чи ні, це таке питання, яке я маю на увазі, полягає в проблемах висновку. (Тримаючи речі дискретні), якщо у нас є два радіоактивні зразки, і ми знаємо, що один з них є певним матеріалом з відомою радіоактивністю (це сумнівна фізика, але давайте робити вигляд, що Всесвіт працює так), і таким чином ми знаємо "справжнє" розподіл радіоактивних клацань, які ми повинні виміряти, повинні бути отруйними з відомим , чи справедливо створити емпіричний розподіл для обох зразків і порівняти їх розбіжності KL з відомим розподілом і сказати, що чим нижчий, швидше за все, цей матеріал?
Якщо піти від сумнівної фізики, якщо я знаю, що два зразки витягнуті з одного і того ж розподілу, але я знаю, що вони не вибрані випадковим чином, порівнюючи їх розбіжності KL з відомими, глобальні розподіли дають мені відчуття "наскільки упереджені" зразки , відносно одного та іншого все одно?
І нарешті, якщо відповідь на попередні питання - так, то чому? Чи можливо зрозуміти ці речі лише зі статистичної точки зору, не здійснюючи жодних (можливо, дрібних) зв’язків з теорією інформації?