Вимірювання "відстані" між двома багатоваріантними розподілами


28

Я шукаю хорошу термінологію, щоб описати те, що намагаюся зробити, щоб полегшити пошук ресурсів.

Скажімо, у мене є два кластери точок A і B, кожне пов'язане з двома значеннями, X і Y, і я хочу виміряти "відстань" між A і B - тобто наскільки ймовірним є те, що вони були вибірені з одного розподілу (Я можу припустити, що розподіли нормальні). Наприклад, якщо X і Y співвідносяться в A, але не в B, розподіли різні.

Інтуїтивно я отримав би коваріаційну матрицю A, а потім подивимось, наскільки ймовірно, що кожна точка в B вміститься туди, і навпаки (можливо, використовуючи щось таке, як махаланобіська відстань).

Але це трохи "спеціально", і, мабуть, є більш жорсткий спосіб опису цього (звичайно, на практиці у мене є більше двох наборів даних з більш ніж двома змінними - я намагаюся визначити, який із моїх наборів даних є пережилими).

Спасибі!


Не знаю чому, але тест Мантеля спалахнув перед моїми очима, коли я прочитав ваш пост.
Роман Луштрик

Відповіді:


15

Існує також розбіжність Куллбека-Лейблера , яка пов'язана з відстані Хеллінгера, яку ви згадували вище.


2
чи можна обчислити розбіжність точок Куллбека-Лейблера, не роблячи припущення про основні щільності ймовірності, з яких походять точки?
Андре Хольцнер

16

Хм, здається, що я шукаю відстань Бхаттачарія , хоча відстань Геллінгера теж працює.


Ви згадуєте про Бхаттачарію та Хеллінга, тоді приймаєте відповідь, говорячи про К. Л. ... Зрештою, який був ваш вибір і чому?
Саймон С.

1
Я вважаю, що це була різниця в KL, але ... це було в 2010 році, і моя пам’ять далеко не ідеальна.
Еміль

ага так, я це здогадався, але все-таки дякую!
Саймон С.

9

Евристичний

  • Мінковський-форма
  • Середньозважена різниця (WMV)

Непараметрична статистика тестів

  • 2 (площа Чи)
  • Колмогоров-Смірнов (KS)
  • Крамер / фон Мізес (CvM)

Інформаційно-теоретичні розбіжності

  • Кулбек-Ліблер (KL)
  • Дивергенція Дженсена – Шеннона (метрика)
  • Джеффрі-дивергенція (чисельно стабільна і симетрична)

Заходи наземної відстані

  • Перетин гістограми
  • Квадратична форма (QF)
  • Відстань землекористувачів (EMD)


0

Трохи більше заходів "статистичної різниці"

  • Перестановочний тест (за Фішером)
  • Теорема про центральну межу і теорема Слуцького
  • Тест Манна-Вітні-Вілкоксина
  • Тест Андерсона-Дарлінга
  • Тест Шапіро – Вілка
  • Тест Хосмера – Лемешоу
  • Тест Куйпера
  • кернелізована розбіжність Штейна
  • Схожість Жакарда
  • Також ієрархічна кластеризація займається заходами подібності між групами. Найпопулярнішими заходами групової схожості є, мабуть, одинична зв'язок, повна та середня.
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.