Безперервне кластеризація


9

Тож у мене виникає проблема, що стосується кластеризації з прямим потоковим потоком даних. Оскільки у мене постійно зростає набір даних, я не впевнений, який найкращий спосіб запустити ефективну та ефективну кластеризацію. Я придумав кілька можливих рішень, серед яких:

  1. Встановлення обмеження на кількість точок передачі даних, тому кожен раз, коли буде досягнуто обмеження, коли інша точка даних надходить у найдавнішу точку, буде видалено. По суті, це говорить про те, що старі дані вже не є досить актуальними для нас, щоб дбати про те, що ми втрачаємо, викинувши їх.

  2. Після того, як буде достатньо даних, щоб зробити гарну кластеризацію, розгляньте це як "налаштування", і коли нові пункти прийдуть, а не повторно кластеруйте всі дані, просто з’ясуйте, до якого центру кластера нова точка є найближчою, і додайте їх до цього. Перевага тут полягає в тому, що ви можете уникнути повторного кластеризації на кожній новій точці, і вам не доведеться зберігати всі інші точки, лише центри кластерів, вважаючи це кластеризацією "досить хорошою". Мінус полягає в тому, що повторний запуск алгоритму з усіма точками даних з самого початку може бути більш точним.

Хоча це деякі потенційні рішення, на які я штурмував мозок, я хотів би знати, чи є якісь більш відомі методи вирішення цієї проблеми. Я вважаю, що такі сайти, як Google, повинні були якось боротися з цим (і я сподіваюся, що "додайте більше оперативної пам’яті, серверів та процесорів" або "постійно розширюйте ваші центри обробки даних" - не єдині відповіді.

Відповіді:


6

Це здається, що ви шукаєте онлайн-алгоритми кластеризації.

Я пропоную шукати "онлайн-кластеризацію" в Google Scholar. Можливо, наступні посилання виявляться корисними (принаймні, як вихідний пункт).


9

Існує досить багато роботи над кластеризацією потоків (яка дещо відрізняється від онлайн-методів, але по суті те, що ви хочете). Наведене вище посилання Гухи та інших є дуже хорошим, і для більш загальної точки зору того, які методи роботи працюють та які методи використовувались у минулому (як евристичні, так і точні), ви можете переглянути моє опитування. на кластеризацію на потоках .



4

Мені подобається опитування Суреша вище та узагальнено різні підходи до кластеризації потоків. Ви цього не просили, але в деяких випадках можливо, проблема полягає в тому, що безперервні дані бачать розподілені сервери, треба підтримувати кластеризацію в центрі, і не потрібно переміщати багато даних навколо. Дивіться тут .


Ласкаво просимо, Муту!
Суреш Венкат
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.