Є чи хто - небудь використовувати в або метрики для кластеризації, а не ?
Aggarwal та ін.,
Про дивовижну поведінку метрики відстані у просторі з високими розмірами
говорили (у 2001 р.), Що
послідовно більш кращий, ніж евклідова метрика відстані для застосувань для розміщення даних з високими розмірами
і стверджував, що або може бути кращим.
Причини використання або можуть бути теоретичними або експериментальними, наприклад, чутливість до чужих робіт / робіт Кабана або програм, що працюють на реальних або синтетичних даних (відтворювати будь-ласка). Приклад чи малюнок допомогли б інтуїції мого мирянина.
Це запитання - це відповідь на відповідь Боба Дуранта на питання " Коли-найближчий-сусід-значущий-сьогодні" . Як він каже, вибір буде залежати як від даних, так і від програми; тим не менш, звіти про реальний досвід були б корисними.
Нотатки додані у вівторок 7 червня:
Я натрапив на "Статистичний аналіз даних на основі L1-норми та пов'язаних з ними методів", Dodge ed., 2002, 454p, isbn 3764369205 - десятки конференцій.
Чи може хтось проаналізувати концентрацію відстані на предмет експоненціальних ознак? Однією з причин експоненціалів є те, що ; інший (неекспертний) полягає в тому, що це розподіл max-ентропії 0; третє полягає в тому, що деякі реальні набори даних, зокрема SIFT, виглядають приблизно експоненціально.