Тож у мене виникає проблема, що стосується кластеризації з прямим потоковим потоком даних. Оскільки у мене постійно зростає набір даних, я не впевнений, який найкращий спосіб запустити ефективну та ефективну кластеризацію. Я придумав кілька можливих рішень, серед яких:
Встановлення обмеження на кількість точок передачі даних, тому кожен раз, коли буде досягнуто обмеження, коли інша точка даних надходить у найдавнішу точку, буде видалено. По суті, це говорить про те, що старі дані вже не є досить актуальними для нас, щоб дбати про те, що ми втрачаємо, викинувши їх.
Після того, як буде достатньо даних, щоб зробити гарну кластеризацію, розгляньте це як "налаштування", і коли нові пункти прийдуть, а не повторно кластеруйте всі дані, просто з’ясуйте, до якого центру кластера нова точка є найближчою, і додайте їх до цього. Перевага тут полягає в тому, що ви можете уникнути повторного кластеризації на кожній новій точці, і вам не доведеться зберігати всі інші точки, лише центри кластерів, вважаючи це кластеризацією "досить хорошою". Мінус полягає в тому, що повторний запуск алгоритму з усіма точками даних з самого початку може бути більш точним.
Хоча це деякі потенційні рішення, на які я штурмував мозок, я хотів би знати, чи є якісь більш відомі методи вирішення цієї проблеми. Я вважаю, що такі сайти, як Google, повинні були якось боротися з цим (і я сподіваюся, що "додайте більше оперативної пам’яті, серверів та процесорів" або "постійно розширюйте ваші центри обробки даних" - не єдині відповіді.