Яку відстань використовувати? наприклад, Манхеттен, Евклідовий, Брей-Кертіс тощо


11

Я не є екологом громади, але сьогодні працюю над даними екології громади.

Те, що я не міг зрозуміти, окрім математики цих відстаней, - це критерії для кожної дистанції, яку потрібно використати, і в яких ситуаціях вона може бути застосована. Наприклад, що використовувати з даними підрахунку? Як перетворити кут нахилу між двома місцями на відстань? Або температура чи кількість опадів у двох місцях? Які припущення для кожної відстані і коли це має сенс?


Надійний спосіб зрозуміти метрику дистанції, їхні припущення, значення та застосовність - це медитація над їх формулами. Ви знаєте, порівняльна анатомія дозволила передбачити, як живуть і поводяться різні тварини. Також читайте книги / статті про метрику відстаней.
ttnphns

2
Педантична нота: Брей-Кертіс - це не відстань, а несхожість.
Франк Дернонкурт

Відповіді:


13

На жаль, у більшості ситуацій немає чіткої відповіді на ваше запитання. Тобто для будь-якої програми, безумовно, існує багато метрик відстані, які дадуть подібні та точні відповіді. Зважаючи на те, що активно використовуються дійсні метрики відстаней, десятки, і, мабуть, сотні, уявлення про те, що можна знайти "правильну" відстань, не є продуктивним способом думати про проблему вибору відповідної метрики відстані.

Я б замість цього зосередився на тому, щоб не вибрати неправильну метрику відстані. Ви хочете, щоб ваша відстань відображала "абсолютну величину" (наприклад, вам цікаво використовувати відстань для визначення запасів, що мають подібні середні значення), або відображати загальну форму відповіді (наприклад, ціни на акції, які коливаються аналогічно з часом, але можуть мати зовсім інші значення сировини)? Перший сценарій вказував би відстані, такі як Манхеттен та Евклідовий, а другий, наприклад, відстань кореляції.

Якщо ви знаєте структуру коваріації ваших даних, то відстань Махаланобіс, ймовірно, більш доречна. Для чисто категоричних даних існує багато запропонованих відстаней, наприклад, відстань, що відповідає. Для змішаних категоричних і безперервних відстань Гоувера є популярною (хоча, на мою думку, трохи теоретично незадовільною).

Нарешті, на мою думку, ваш аналіз посилиться, якщо ви продемонструєте, що ваші результати та висновки є надійними у виборі метрики відстані (звичайно, у підмножині відповідних відстаней). Якщо ваш аналіз різко зміниться з тонкими змінами використовуваної метрики відстані, слід провести подальше вивчення, щоб виявити причину невідповідності.


1
Що ви маєте на увазі під correlation distance? 1- r ?
ttnphns

1
@ttnphns так, найчастіше зустрічається . Варто зазначити, що для заданої метрики подібності існує принаймні три формули для перетворення на несхожість: (1) Метод Бхаттачарії , (2) Метод Колмогорова і (3) метод Матусіти . Це ще одна сфера, де на я не думаю, що вибір зазвичай має велике значення, і якби він був, я б переймався надійністю своїх результатів. 1-rρ[-1,1]cос-1(ρ)1-ρ2-2ρprаcтicе
ахфосс

Цитування мого останнього коментаря: Krzanowski (1983). Біометріка, 70 (1), 235--243. Див. Сторінку 236.
ахфосс

1
Добре, дякую. Перевірте також цю відповідь, будь ласка. Це вказує на той факт, що r точно пов'язаний з евклідовою дистанцією, отриманою за стандартизованими даними (профілі, що порівнюються), що, reflect overall shape of the responseз ваших слів.
ttnphns

1
Гарний пост. Як ви вказуєте, ці дві показники дійсно пов'язані між собою. Для контекстуалізації ваших точок до поточної дискусії ключовою відмінністю є те, що в евклідовій змінній відстані не (зазвичай) центрируються, а формула кореляції централює змінні та шкали за їх стандартним відхиленням. Таким чином, кореляція інваріантна лінійним перетворенням, тоді як евклідова відстань не обов'язково.
ахфосс

6

Вибір правильної відстані не є елементарним завданням. Коли ми хочемо зробити кластерний аналіз на наборі даних, різні результати можуть з’являтися на різних відстанях, тому дуже важливо бути обережним, яку відстань вибрати, тому що ми можемо зробити помилковий артефакт, який добре фіксує мінливість, але насправді без сенс у нашій проблемі.

Евклидово відстань доцільно , коли у мене є безперервні числові змінні , і я хочу , щоб відобразити абсолютні відстані. Ця відстань враховує кожну змінну і не видаляє надмірності, тому якби у мене було три змінні, які пояснюють одне і те ж (співвідносяться), я би зважив цей ефект на три. Більше того, ця відстань не є інваріантною за шкалою, тому загалом мені доводиться масштабувати раніше, щоб використовувати відстань.
Приклад екології: Ми маємо різні спостереження у багатьох місцевостях, з яких експерти брали зразки деяких мікробіологічних, фізичних та хімічних факторів. Ми хочемо знайти закономірності в екосистемах. Ці фактори мають високу кореляцію, але ми знаємо, що кожен має значення, тому ми не хочемо видаляти ці надмірності. Ми використовуємо евклідову відстань зі масштабованими даними, щоб уникнути ефекту одиниць.

Відстань махаланобіса доречна, коли у мене є постійні числові змінні і я хочу відображати абсолютні відстані, але ми хочемо видалити надмірності. Якщо ми повторили змінні, їх повторюваний ефект зникне.

Сімейство Хеллінгера , профіль виду та відстань акордів доречні, коли ми хочемо зробити акцент на відмінностях між змінними, коли ми хочемо диференціювати профілі. Ці відстані зважують за сумарними кількостями кожного спостереження таким чином, що відстані невеликі, коли змінні за змінною особини є більш схожими, хоча в абсолютних величинах були дуже різними. Стережись! Ці відстані дуже добре відображають різницю між профілями, але втратили ефект величини. Вони можуть бути дуже корисними, коли ми маємо різні розміри вибірки.
Приклад екології: Ми хочемо вивчити фауну багатьох земель і маємо матрицю даних інвентаризації черевоногих (місця відбору проб у рядках та назви видів у стовпцях). Матриця характеризується тим, що має багато нулів і різної величини, оскільки деякі місцевості мають деякі види, а інші - інші. Ми могли використовувати відстань Геллінгера.

Брей-Кертіс досить схожий, але це більш доречно, коли ми хочемо диференціювати профілі, а також враховувати відносні величини.


Дякуємо за розмежування випадків використання та прикладів. Це виявилося дуже корисним у застосуванні моделі аерокласифікації.
S3DEV

4

Щодо дистанції на Манхеттені: Кауфман, Леонард та Пітер Дж. Руссо. "Пошук груп у даних: вступ до кластерного аналізу." (2005).

Використовувати відстань на Манхеттені рекомендується в тих ситуаціях, коли, наприклад, різниця 1 у першій змінній, а 3 у другій змінній - така ж, як різниця 2 у першій змінній та 2 у другій.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.