Питання щодо розбіжності KL?


14

Я порівнюю два розподіли з дивергенцією KL, що повертає мені нестандартне число, яке, відповідно до того, що я читав про цей захід, є кількістю інформації, необхідної для перетворення однієї гіпотези в іншу. У мене є два питання:

a) Чи існує спосіб кількісної оцінки розбіжності KL, щоб вона мала більш змістовну інтерпретацію, наприклад, як розмір ефекту або R ^ 2? Будь-яка форма стандартизації?

b) У R при використанні KLdiv (пакет flexmix) можна встановити значення 'esp' (стандартний esp = 1e-4), який встановлює всі точки, менші від esp, до певного стандарту, щоб забезпечити числову стабільність. Я грав з різними значеннями esp, і для мого набору даних я отримую все більшу дивергенцію KL, тим меншу кількість, яку я вибираю. Що відбувається? Я б очікував, що чим менше esp, тим надійнішими повинні бути результати, оскільки вони дозволяють більше "реальних цінностей" стати частиною статистики. Ні? Я повинен змінити esp, оскільки він інакше не обчислює статистику, а просто відображається як NA у таблиці результатів ...

Відповіді:


10

Припустимо, вам дано n зразків IID, згенерованих або p, або q. Ви хочете визначити, який розподіл генерував їх. Візьмемо як нульову гіпотезу, що вони були породжені q. Нехай вказують ймовірність помилки типу I, помилково відкидаючи нульову гіпотезу, і b вказують на ймовірність помилки II типу.

Тоді для великих n ймовірність помилки типу I принаймні

exp(nKL(p,q))

Іншими словами, для "оптимальної" процедури прийняття рішення ймовірність типу I падає максимум на коефіцієнт досвіду (KL (p, q)) з кожною точкою даних. Похибка типу II принаймні падає на коефіцієнт .exp(KL(q,p))

Для довільних n a і b пов'язані наступним чином

blogb1a+(1b)log1banKL(p,q)

і

aloga1b+(1a)log1abnKL(q,p)

Якщо ми виражаємо вищезазначене обмеження як нижню межу на a в умовах b і KL і зменшуємо b до 0, результат, здається, наближається до "exp (-n KL (q, p))", пов'язаного навіть для малих n

Детальніше на сторінці 10 тут і на сторінках 74-77 Кулбека "Інформаційна теорія та статистика" (1978).

Як бічне зауваження, ця інтерпретація може бути використана для мотивації метрики інформації про Фішера, оскільки для будь-якої пари розподілів p, q на відстані Фішера k один від одного (малого k) вам потрібно однакова кількість спостережень, щоб розказати їх


1
+1 Мені подобається таке тлумачення! Ви могли б уточнити "p нижче e"? чому ти береш мале е? ви кажете "ймовірність зробити протилежну помилку" це верхня межа або точна ймовірність? Якщо я пам'ятаю, такий тип підходу пояснюється Черноффом, чи є у вас посилання (я вважаю, що ваша перша посилання не уточнює сенс :))?
Робін Жирард

1
Чому я беру маленький е ... хм ... ось що робив папір Баласубраманяна, але тепер, повертаючись до Куллбека, здається, його обмежене значення має будь-яке е, і він також надає обмеження на скінченну n, дозвольте мені оновити відповідь
Ярослав Булатов

ОК, нам не потрібно мале e (тепер називається b, помилка типу II), щоб воно було малим, щоб прив’язати до утримання, але b = 0 - це значення, для якого спрощений (exp (-n KL (p, q)) обмежений відповідає більш складною межею вище. Досить цікаво, що нижня межа для помилки типу I, дана 0 Помилка II типу <1, мені цікаво, чи <1 помилка типу II насправді досяжна
Ярослав Булатов

1
Насправді набагато простішим для розуміння посиланням на це є "Елементи інформаційної теорії" Кавер, сторінка 309, 12.8 "Лема Штейна"
Ярослав Булатов

8

KL має глибокий зміст, коли ви візуалізуєте набір зубних рядів як колектор у метричному тензорі рибалки, він дає геодезичну відстань між двома "близькими" розподілами. Формально:

ds2=2KL(p(x,θ),p(x,θ+dθ))

Наступні рядки наведені тут, щоб детально пояснити, що розуміється під цими математичними формулами.

Визначення метрики Фішера.

Розглянемо параметризоване сімейство розподілів ймовірностей (задане щільністю в R n ), де x - випадкова величина, а theta - параметр в R p . Ви можете знати, що матриця інформації про рибалки F = ( F i j ) єD=(f(x,θ))RnxRpF=(Fij)

Fij=E[d(logf(x,θ))/dθid(logf(x,θ))/dθj]

DF(θ)

Ви можете сказати ... Добре математична абстракція, але де KL?

p=1F11 пов'язаний з кривизною цієї кривої ... (див. Насіннєвий документ Bradley Efron http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1176343282 )

ds2p(x,θ)p(x,θ+dθ)

ds2=Fijdθidθj

і, як відомо, це двічі дивергенція Кулбека Лейблера:

ds2=2KL(p(x,θ),p(x,θ+dθ))

Якщо ви хочете дізнатися більше про це, пропоную прочитати документ від Amari http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1176345779 (я думаю, що є також книга від Amari про риманова геометрія в статистиці, але я не пам'ятаю назви)


Додайте $ навколо свого LaTeX. Тепер це має бути добре. Дивіться meta.math.stackexchange.com/questions/2/…
Роб Хандман

1
Оскільки я не математик і не статистик, я хотів би повторити те, що ви говорили, щоб переконатися, що я не зрозумів неправильно. Отже, ви говорите, що прийняття ds ^ 2 (вдвічі більше KL) мало б аналогічне значення, як R ^ 2 (в регресійній моделі) для загального розподілу. І що це насправді можна використати для геометричного кількісного визначення відстаней? У DS ^ 2 є ім'я, щоб я міг більше читати про це. Чи є документ, який безпосередньо описує цю метрику та показує додатки та приклади?
Амплефорт

Я думаю, ти далеко не розумієш цього питання, і я не впевнений, що ти повинен намагатися йти далі. Якщо ви вмотивовані, ви можете прочитати папір від згадуваного мною Бредлі Ефрона або той документ з Amari projecteuclid.org/… .
Робін Жирард

1
Це здається характеристикою направленої похідної KL, а не самої KL, і, здається, неможливо вивести з неї розбіжність KL, тому що, на відміну від похідної, KL-розбіжність не залежить від геометрії багатообразия
Ярослав Булатов

7

Дивергенція KL (p, q) між розподілами p (.) І q (.) Має інтуїтивну теоретичну теоретичну інтерпретацію інформації, яку ви можете вважати корисною.

Припустимо, ми спостерігаємо дані x, породжені деяким розподілом ймовірностей p (.). Нижня межа середньої довжини коду в бітах, необхідна для отримання даних, породжених p (.), Задається ентропією p (.).

Тепер, оскільки нам невідомо p (.), Ми вибираємо інший розподіл, скажімо, q (.) Для кодування (або опису, стану) даних. Середня довжина коду даних, згенерованих p (.) Та кодованих за допомогою q (.), Обов'язково буде довшою, ніж якби для кодування використовувався справжній розподіл p (.). Дивергенція KL говорить нам про неефективність цього альтернативного коду. Іншими словами, розбіжність KL між p (.) І q (.) - середня кількість зайвих бітів, необхідних для кодування даних, згенерованих p (.), Використовуючи розподіл кодування q (.). Розбіжність KL є негативною і дорівнює нулю, якщо фактичний розподіл даних, що генерує дані, використовується для кодування даних.


2

Що стосується частини (b) вашого запитання, ви можете зіткнутися з проблемою, що один з ваших дистрибутивів має щільність у регіоні, де інший не має.

D(PQ)=pilnpiqi

ipi>0 іqi=0. Числовий епсилон у реалізації R "рятує вас" від цієї проблеми; але це означає, що отримане значення залежить від цього параметра (технічноqi=0 не потрібно, просто це qi менше числового епсилона).

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.