Кластеризація форматизації, відмінна від K-засобів, для роздільних даних


11

Дані реального світу іноді мають природну кількість кластерів (спроба класифікувати їх у кількість кластерів, менших за якийсь магічний k, спричинить різке збільшення вартості кластеризації). Сьогодні я відвідав лекцію доктора Адама Майєрсона, і він назвав цей тип даних "відокремленими даними".

Які існують формалізації кластеризації, крім K-засобів, які можуть бути піддані алгоритмам кластеризації (апроксимації або евристики), які могли б використовувати природну відокремленість даних?

Відповіді:


11

Одна з останніх моделей, яка намагається захопити таке поняття, - Балкан, Блюм та Гупта '09. Вони дають алгоритми для різних цілей кластеризації, коли дані задовольняють певному припущенню: а саме, якщо дані такі, що будь-яке -приближення для цілі кластеризації ϵ -закрите до оптимального кластеризації, то вони можуть дати ефективні алгоритми пошуку майже -оптимальна кластеризація навіть для значень c, для яких пошук с- апроксимації є NP-Hard. Це припущення про те, що дані якимось чином "приємні" або "роздільні". Про це у Lipton є приємна публікація в блозі .cϵcc

αα

Я впевнений, що є більш ранні роботи та більш відповідні поняття, але це деякі останні теоретичні результати, пов'язані з вашим питанням.


8

Окрім праць Островського та ін. Та роботи Артура та Васильвіцького про поведінку k-засобів, є теоретична робота щодо евклідової k-медіани та k-засобів, що веде до "лінійних" часових алгоритмів кластеризації за ці рецептури. Що в цих останніх роботах цікаво, це те, що вони використовують відокремлюваність як інструмент аналізу, але не вимагають цього в даних.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.