Що таке відстань Хеллінгера і коли її використовувати?


19

Мені цікаво дізнатися, що насправді відбувається на відстані Хеллінгера (простими словами). Крім того, мені також цікаво знати, які існують проблеми, якими ми можемо скористатися Відстань Хеллінгера? Які переваги використання дистанції Hellinger?


9
Відстань Хеллінгера - вірогідний аналог евклідової відстані. Помітною властивістю є його симетрія, як метрика. Такі математичні властивості корисні, якщо ви пишете папір і вам потрібна функція відстані, яка володіє певними властивостями, щоб зробити ваше підтвердження можливим. У застосуванні хтось може виявити, що одна метрика дає кращі або кращі результати, ніж інша для певного завдання; наприклад, відстань Вассерстейн - це все лють в генеративних змагальних мережах
Емре

Дякую за коментар Я натрапив на це запитання, яке досить схоже на питання, яке я маю зараз. datascience.stackexchange.com/questions/22324/… Будь ласка, повідомте мені, чому відповідь говорить, що відстань Геллінгера підходить?
Сміт Волка

2
Можливо, для візуалізації тем у метричному просторі. Ще одна приємна властивість полягає в тому, що відстань Хеллінгера є обмеженою для розповсюдження з різною підтримкою. Добре, що ви задаєте ці питання. Я пропоную спробувати різні показники для себе та спостерігати за результатами.
Емре

Спасибі. це гарне посилання. багато допомагає. Але чи обмежена відстань Хеллінгера лише темами, похідними від розподілу латентного Діріхле (LDA), як згадується у посиланні?
Сміт Волка

1
Ні, він не має притаманного зв’язку з LDA.
Емре

Відповіді:


7

Відстань Хеллінгера - це показник для вимірювання різниці між двома розподілами ймовірностей. Це ймовірнісний аналог евклідової відстані .

З урахуванням двох розподілів ймовірностей, і , відстань Хеллінгера визначається як:PQ

h(P,Q)=12PQ2

Це корисно при кількісному оцінці різниці між двома розподілами ймовірностей. Наприклад, якщо ви оцінюєте розподіл для користувачів та користувачів, які не користуються послугою. Якщо відстань Хеллінгера невелика між цими групами за деякими ознаками, то вони не є статистично корисними для сегментації.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.