Як виміряти форму кластера?


14

Я знаю, що це питання недостатньо чітко визначено, але деякі кластери, як правило, еліптичні або лежать у просторі нижнього розміру, а інші мають нелінійні форми (у 2D або 3D прикладах).

Чи є міра нелінійності (або "форми") кластерів?

Зауважте, що у 2D та 3D просторі не проблема бачити форму будь-якого кластера, але у просторах з більшими розмірами проблематично сказати щось про форму. Зокрема, чи є якісь міри того, наскільки опуклий кластер?

На мене це питання надихнуло багато інших питань кластеризації, де люди говорять про кластери, але ніхто не може їх побачити (у просторах з більшими розмірами). Більше того, я знаю, що існують деякі заходи нелінійності для двовимірних кривих.


1
en.wikipedia.org/wiki/Topological_data_analysis може допомогти, коли форма не зовсім така, як ви маєте на увазі.
ziyuang

1
Можливо, ви могли б адаптувати концепцію компактності для ваших цілей.
користувач12719

Відповіді:


4

Мені подобаються моделі Gaussian Mixure (GMM).

Однією з їх особливостей є те, що в пробітній області вони діють як кускові інтерполятори. Одним із наслідків цього є те, що вони можуть діяти як основа заміни, універсальний наближувач. Це означає, що для не-гауссових розподілів, таких як лонормальні, вейбульські або божевільніші не аналітичні, якщо дотримуються деякі критерії - ГММ може наближати розподіл.

Отже, якщо ви знаєте параметри оптимального наближення AICc або BIC за допомогою GMM, ви можете спроектувати це на менші розміри. Ви можете повернути його і подивитися на основні осі компонентів наближеної GMM.

Наслідком цього буде інформативний та візуально доступний спосіб перегляду найважливіших частин даних більш високих розмірів за допомогою нашого візуального сприйняття в режимі 3d-перегляду.

Редагувати:

Існує кілька способів розглянути форму.

  • Ви можете подивитися на тенденції в засобах. Лонормальне значення наближається до серії гауссовських засобів, які прогресивно наближаються, а вага яких зменшується по ходу прогресії. Сума наближається до важчого хвоста. У n-вимірах послідовність таких компонентів складе частку. Ви також можете відстежувати відстані між засобами (перетворювати у великі розміри) та напрямками косинусів. Це призведе до набагато доступніших вимірів.
  • Можна скласти 3d-систему, осі якої - вага, середня величина та величина дисперсії / коваріації. Якщо у вас дуже велика кількість кластерів, це спосіб їх перегляду порівняно один з одним. Це цінний спосіб перетворити 50 к. Деталей за допомогою 2-х мір кожної у кілька хмар у тривимірному просторі. Я можу виконати керування процесом у цьому просторі, якщо вирішу. Мені подобається рекурсія використання моделі гауссової суміші, заснованої на контролі компонентів моделі гауссової суміші, що підходить до параметрів частини.
  • З точки зору знеструмлення ви можете викинути дуже малу вагу, або за вагою на коваріацію, або таке.
  • R2
  • Ви можете дивитися на це, як бульбашки, що перетинаються . Між кожною парою кластерів GMM існує місце однакової ймовірності (нульове розбіжність Куллбека-Лейблера). Якщо ви відстежуєте цю посаду, ви можете фільтрувати за ймовірністю членства в цьому місці. Це дасть вам точки межі класифікації. Це допоможе вам ізолювати «одиночки». Ви можете порахувати кількість таких меж вище порогового значення на одного члена та отримати список "з'єднаності" для кожного компонента. Ви також можете переглянути кути та відстані між місцями.
  • Ви можете перевпорядкувати простір за допомогою випадкових чисел, заданих PDF-файлами Гаусса, а потім виконати на ньому принциповий аналіз компонентів та переглянути власні форми та власні значення, пов'язані з ними.

Редагувати:

Що означає форма? Кажуть, специфіка - це душа всього доброго спілкування. Що ви маєте на увазі про "міру"?

Ідеї ​​про те, що це може означати:

  • Норма очних відчуттів / відчуття загальної форми. (надзвичайно якісна, наочна доступність)
  • міра форми GD & T (копланарність, концентрація тощо) (надзвичайно кількісна)
  • щось числове (власні значення, коваріації тощо)
  • корисна координата зменшених розмірів (як параметри GMM стають розмірами)
  • система зменшеного шуму (згладжена, а потім представлена)

Більшість із "кількох способів" є певними варіаціями щодо цих питань.


3

Це може бути досить спрощеним, але ви можете отримати деяке розуміння, зробивши аналіз власного значення на кожному з ваших кластерів.

Що б я спробував, це взяти всі точки, присвоєні кластеру, і встановити їх у багатовимірному гауссі. Потім ви можете обчислити власні значення вбудованої матриці коваріації та побудувати їх. Є багато способів зробити це; можливо, найбільш відомим і широко використовуваним називається аналіз основних компонентів або PCA .

Після отримання власних значень (їх також називають спектром), ви можете вивчити їх відносні розміри, щоб визначити, наскільки "розтягнутий" кластер у певних вимірах. Чим менше рівномірний спектр, тим кластерніше "сигарної форми", і чим рівномірніше спектр, тим кулястіший кластер. Ви навіть можете визначити якусь метрику для вказівки, наскільки нерівномірними є власні значення (спектральна ентропія?); див. http://en.wikipedia.org/wiki/Spectral_flatness .

Як побічна перевага, ви можете вивчити основні компоненти (власні вектори, пов'язані з великими власними значеннями), щоб побачити, куди в вашому просторі даних вказують кластери у формі сигар.

Природно, це грубе наближення для довільного кластера, оскільки воно моделює лише точки кластеру як єдиний еліпсоїд. Але, як я вже сказав, це може дати вам деяке розуміння.


+1 спрощений, можливо; але це виглядає ефективно і практично. Мабуть, немає жодної переваги для багатоваріантної гауссової підгонки: просто використовуйте SVD з централізованими даними в кластері (що по суті є PCA на кластері).
whuber

@whuber так, я думаю, що ті роблять те саме! Пристосування - це більше те, що, як каже теорія, відбувається за лаштунками, тоді як PCA - це конкретна реалізація цього процесу. Я відредагую свою відповідь, щоб зробити це більш зрозумілим.
lmjohns3

2

Алгоритми кластеризації кореляції, такі як 4C, ERiC або LMCLUS, зазвичай вважають кластери лінійними багатообразиями. Тобто k -вимірні гіперплани в d-мірному просторі. Ну а для 4C та ERiC лише локально лінійні, тому вони насправді можуть бути невипуклими. Але вони все ще намагаються виявити кластери зменшеної локальної розмірності.

Пошук кластерів довільної форми у даних високих розмірів є досить важкою проблемою. Зокрема, через прокляття розмірності, яке дозволяє пошуковому простору вибухнути, і в той же час вимагає, щоб у вас були набагато більші вхідні дані, якщо ви все ще хочете значних результатів. Занадто багато алгоритмів не звертають уваги на те, чи є те, що вони знаходять, все ще є значним чи може бути випадковим.

Тому насправді я вважаю, що перед тим, як замислитись над опуклості неопуклості складних кластерів у просторовому просторі, існують інші проблеми.

Також подивіться на складність обчислення опуклого корпусу у більш високих розмірах ...

Крім того, чи є у вас справжній випадок використання для того, що не викликає цікавості?


2

Якщо ваша розмірність не набагато більша за 2 або 3, то можливе проектування кластера, що цікавить, у двовимірному просторі кілька разів та візуалізації результатів або використання двовимірного вимірювання нелінійності. Я подумав про це через метод Random Projections http://users.ics.aalto.fi/ella/publications/randproj_kdd.pdf .

Для зменшення розмірності для побудови індексу можна використовувати випадкові прогнози. Теорія полягає в тому, що якщо дві точки близькі в розмірах D, і ви берете випадкову проекцію на d розміри з d

Для конкретності можна подумати над проектом земної кулі на рівну поверхню. Як би ви не проектували це, Нью-Йорк та Нью-Джерсі збираються разом, але лише рідко ви підштовхуєте Нью-Йорк та Лондон разом.

Я не знаю, чи це може вам суттєво допомогти, але це може бути швидкий спосіб візуалізації кластерів.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.