Вибір правильної відстані не є елементарним завданням. Коли ми хочемо зробити кластерний аналіз на наборі даних, різні результати можуть з’являтися на різних відстанях, тому дуже важливо бути обережним, яку відстань вибрати, тому що ми можемо зробити помилковий артефакт, який добре фіксує мінливість, але насправді без сенс у нашій проблемі.
Евклидово відстань доцільно , коли у мене є безперервні числові змінні , і я хочу , щоб відобразити абсолютні відстані. Ця відстань враховує кожну змінну і не видаляє надмірності, тому якби у мене було три змінні, які пояснюють одне і те ж (співвідносяться), я би зважив цей ефект на три. Більше того, ця відстань не є інваріантною за шкалою, тому загалом мені доводиться масштабувати раніше, щоб використовувати відстань.
Приклад екології: Ми маємо різні спостереження у багатьох місцевостях, з яких експерти брали зразки деяких мікробіологічних, фізичних та хімічних факторів. Ми хочемо знайти закономірності в екосистемах. Ці фактори мають високу кореляцію, але ми знаємо, що кожен має значення, тому ми не хочемо видаляти ці надмірності. Ми використовуємо евклідову відстань зі масштабованими даними, щоб уникнути ефекту одиниць.
Відстань махаланобіса доречна, коли у мене є постійні числові змінні і я хочу відображати абсолютні відстані, але ми хочемо видалити надмірності. Якщо ми повторили змінні, їх повторюваний ефект зникне.
Сімейство Хеллінгера , профіль виду та відстань акордів доречні, коли ми хочемо зробити акцент на відмінностях між змінними, коли ми хочемо диференціювати профілі. Ці відстані зважують за сумарними кількостями кожного спостереження таким чином, що відстані невеликі, коли змінні за змінною особини є більш схожими, хоча в абсолютних величинах були дуже різними. Стережись! Ці відстані дуже добре відображають різницю між профілями, але втратили ефект величини. Вони можуть бути дуже корисними, коли ми маємо різні розміри вибірки.
Приклад екології: Ми хочемо вивчити фауну багатьох земель і маємо матрицю даних інвентаризації черевоногих (місця відбору проб у рядках та назви видів у стовпцях). Матриця характеризується тим, що має багато нулів і різної величини, оскільки деякі місцевості мають деякі види, а інші - інші. Ми могли використовувати відстань Геллінгера.
Брей-Кертіс досить схожий, але це більш доречно, коли ми хочемо диференціювати профілі, а також враховувати відносні величини.