Кластеризація форматизації, відмінна від K-засобів, для роздільних даних

11

Дані реального світу іноді мають природну кількість кластерів (спроба класифікувати їх у кількість кластерів, менших за якийсь магічний k, спричинить різке збільшення вартості кластеризації). Сьогодні я відвідав лекцію доктора Адама Майєрсона, і він назвав цей тип даних "відокремленими даними".

Які існують формалізації кластеризації, крім K-засобів, які можуть бути піддані алгоритмам кластеризації (апроксимації або евристики), які могли б використовувати природну відокремленість даних?

lg.learning clustering

— Олександр Левчук
джерело

11

Одна з останніх моделей, яка намагається захопити таке поняття, - Балкан, Блюм та Гупта '09. Вони дають алгоритми для різних цілей кластеризації, коли дані задовольняють певному припущенню: а саме, якщо дані такі, що будь-яке -приближення для цілі кластеризації -закрите до оптимального кластеризації, то вони можуть дати ефективні алгоритми пошуку майже -оптимальна кластеризація навіть для значень для яких пошук апроксимації є NP-Hard. Це припущення про те, що дані якимось чином "приємні" або "роздільні". Про це у Lipton є приємна публікація в блозі . $c$ $\epsilon$ $c$ $c$

$\alpha$ $\alpha$

Я впевнений, що є більш ранні роботи та більш відповідні поняття, але це деякі останні теоретичні результати, пов'язані з вашим питанням.

— Лев Рейзін
джерело

8

Окрім праць Островського та ін. Та роботи Артура та Васильвіцького про поведінку k-засобів, є теоретична робота щодо евклідової k-медіани та k-засобів, що веде до "лінійних" часових алгоритмів кластеризації за ці рецептури. Що в цих останніх роботах цікаво, це те, що вони використовують відокремлюваність як інструмент аналізу, але не вимагають цього в даних.

— Суреш Венкат
джерело