або показники для кластеризації?


14

Є чи хто - небудь використовувати в або метрики для кластеризації, а не ? Aggarwal та ін., Про дивовижну поведінку метрики відстані у просторі з високими розмірами говорили (у 2001 р.), ЩоL1L.5L2

L1 послідовно більш кращий, ніж евклідова метрика відстані для застосувань для розміщення даних з високими розмірамиL2

і стверджував, що або може бути кращим.L.5L.1

Причини використання або можуть бути теоретичними або експериментальними, наприклад, чутливість до чужих робіт / робіт Кабана або програм, що працюють на реальних або синтетичних даних (відтворювати будь-ласка). Приклад чи малюнок допомогли б інтуїції мого мирянина.L1L.5

Це запитання - це відповідь на відповідь Боба Дуранта на питання " Коли-найближчий-сусід-значущий-сьогодні" . Як він каже, вибір буде залежати як від даних, так і від програми; тим не менш, звіти про реальний досвід були б корисними.p


Нотатки додані у вівторок 7 червня:

Я натрапив на "Статистичний аналіз даних на основі L1-норми та пов'язаних з ними методів", Dodge ed., 2002, 454p, isbn 3764369205 - десятки конференцій.

Чи може хтось проаналізувати концентрацію відстані на предмет експоненціальних ознак? Однією з причин експоненціалів є те, що ; інший (неекспертний) полягає в тому, що це розподіл max-ентропії 0; третє полягає в тому, що деякі реальні набори даних, зокрема SIFT, виглядають приблизно експоненціально.|expexp|exp


Важливо згадати, що Aggarwal та ін. в тій конкретній статті, де шукають поведінку норм у таких проблемах, як кластеризація, найближчий сусід та індексація. Lp
deps_stats

ви, мабуть, мали на увазі метрики для послідовностей, а не для функцій? На мою думку, якщо є критерій оптимізації, проблема може бути вирішена шляхом її оптимізації. Правило великих пальців зазвичай буде пов’язане з точним рішенням такого. У будь-якому разі, спробуйте подумати про властивості knn рішення. Після того, як я прочитав статті, напевно, міг би сказати ще щось на цю тему. lpLp
Дмитро Челов

@deps_stats, так, дякую; змінив назву та перший рядок. @Dmitrij, 1) так little-l - строго кажучи правильно, але big-L є загальним і зрозумілим. 2) так, можна знайти оптимальний p для даної проблеми, але який ваш перший вибір, і чому?
denis

Відповіді:


6

Ключовим тут є розуміння "прокляття розмірності" паперових посилань. З Вікіпедії: коли кількість розмірів дуже велика,

майже весь простір великого розміру знаходиться «далеко» від центру, або, кажучи іншим чином, простір великої розмірної одиниці може складатися майже повністю з «куточків» гіперкуба, при цьому майже немає "середній"

Як результат, починає складніше думати про те, які точки є близькими до інших, оскільки всі вони більш-менш однакові. Це проблема в першому документі, до якого ви зв'язані.

Проблема з високим р полягає в тому, що він підкреслює великі значення - п'ять квадратів і чотири квадрата є дев'ятьма одиницями, але один квадрат і два квадрати - лише три одиниці. Так більші розміри (речі в кутах) домінують над усім, і ви втрачаєте контраст. Тож ця інфляція великих відстаней - те, чого ви хочете уникнути. При дробовому p акцент робиться на відмінності менших розмірів - розміри, які насправді мають проміжні значення - що дає вам більше контрасту.


(+1) Отже, @David, взагалі чи є критерій, який описує якість контрасту?
Дмитро Челов

Схоже, перший документ, який ви зв'язали, пропонує максимальну відстань мінус мінімальну відстань Однак можуть бути і кращі способи.
Девід Дж. Харріс

хороша чітка інтуїція, +1 (хоча незрозуміло, де розташовані кути в розподілі відстаней). Чи використовували ви або L .5 за реальними даними? L1L.5
деніс

1
@ День спасибі! Я думаю, що кутовий біт має найбільш сенс, якщо дані обмежені в найменших розмірах або всіх вимірах. Як би там не було, я не маю достатнього досвіду роботи з кластером, щоб мати добрі інтуїції щодо різних показників для вас. Як неприємно, найкращим підходом може бути спробувати кілька і подивитися, що станеться
Девід Дж. Харріс

1

Існує папір, що використовує метрику Lp з p між 1 і 5, яку ви можете подивитися:

Amorim, RC та Mirkin, B., Metric Minkowski, Характеристика зважування та ініціалізація аномальних кластерів у кластеризації K-засобів, Розпізнавання шаблонів, т. 45 (3), стор 1061-1075, 2012

Завантажте, https://www.researchgate.net/publication/232282003_Author 's_personal_copy_Minkowski_metric_feature_weighting_and_anomalous_cluster_initializing_in_K-Means_clustering / file / d912f508115a040b45.pdf


0

Я не знаю, чи ваша проблема є висновком. Якщо проблема полягає у виведенні вектора з за певних обмежень (які повинні визначати замкнутий опуклий набір), коли заздалегідь припущено скажімо, u , то вектор виводиться шляхом мінімізації 2- відстані від u над набором обмежень (якщо попереднє u не задається тоді його просто шляхом мінімізації 2 -норму). Вищезазначений принцип є виправданим як правильне робити за певних обставин у цій статті http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1176348385 .Rnu2uu2


традиція і Циссар говорять , Aggarwal та декілька інших L 1 або L .5 або ... Що робити? Без поважних причин, я думаю, це залежить від вашого мислення / попередніх переконань. L2L1L.5
деніс
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.