Вимірювання "відстані" між двома багатоваріантними розподілами

28

Я шукаю хорошу термінологію, щоб описати те, що намагаюся зробити, щоб полегшити пошук ресурсів.

Скажімо, у мене є два кластери точок A і B, кожне пов'язане з двома значеннями, X і Y, і я хочу виміряти "відстань" між A і B - тобто наскільки ймовірним є те, що вони були вибірені з одного розподілу (Я можу припустити, що розподіли нормальні). Наприклад, якщо X і Y співвідносяться в A, але не в B, розподіли різні.

Інтуїтивно я отримав би коваріаційну матрицю A, а потім подивимось, наскільки ймовірно, що кожна точка в B вміститься туди, і навпаки (можливо, використовуючи щось таке, як махаланобіська відстань).

Але це трохи "спеціально", і, мабуть, є більш жорсткий спосіб опису цього (звичайно, на практиці у мене є більше двох наборів даних з більш ніж двома змінними - я намагаюся визначити, який із моїх наборів даних є пережилими).

Спасибі!

multivariate-analysis terminology distance-functions

— Еміль
джерело

Не знаю чому, але тест Мантеля спалахнув перед моїми очима, коли я прочитав ваш пост.

— Роман Луштрик

15

Існує також розбіжність Куллбека-Лейблера , яка пов'язана з відстані Хеллінгера, яку ви згадували вище.

— Відновіть Моніку - Г. Сімпсон
джерело

2

чи можна обчислити розбіжність точок Куллбека-Лейблера, не роблячи припущення про основні щільності ймовірності, з яких походять точки?

— Андре Хольцнер

16

Хм, здається, що я шукаю відстань Бхаттачарія , хоча відстань Геллінгера теж працює.

— Еміль
джерело

Ви згадуєте про Бхаттачарію та Хеллінга, тоді приймаєте відповідь, говорячи про К. Л. ... Зрештою, який був ваш вибір і чому?

— Саймон С.

1

Я вважаю, що це була різниця в KL, але ... це було в 2010 році, і моя пам’ять далеко не ідеальна.

— Еміль

ага так, я це здогадався, але все-таки дякую!

— Саймон С.

9

Евристичний

Мінковський-форма
Середньозважена різниця (WMV)

Непараметрична статистика тестів

2 (площа Чи)
Колмогоров-Смірнов (KS)
Крамер / фон Мізес (CvM)

Інформаційно-теоретичні розбіжності

Кулбек-Ліблер (KL)
Дивергенція Дженсена – Шеннона (метрика)
Джеффрі-дивергенція (чисельно стабільна і симетрична)

Заходи наземної відстані

Перетин гістограми
Квадратична форма (QF)
Відстань землекористувачів (EMD)

— небосхил
джерело

7

Найповніше опитування представлено у статистичних висновках, заснованих на заходах розбіжності Леандро Пардо, Університет Комплутенс, Чапман Холл, 2006.

— Марк Лосось
джерело

0

Трохи більше заходів "статистичної різниці"

Перестановочний тест (за Фішером)
Теорема про центральну межу і теорема Слуцького
Тест Манна-Вітні-Вілкоксина
Тест Андерсона-Дарлінга
Тест Шапіро – Вілка
Тест Хосмера – Лемешоу
Тест Куйпера
кернелізована розбіжність Штейна
Схожість Жакарда
Також ієрархічна кластеризація займається заходами подібності між групами. Найпопулярнішими заходами групової схожості є, мабуть, одинична зв'язок, повна та середня.

— Данило Жеребецький
джерело